Уровни надежности ЦОД
Для оценивания данного параметра была разработана специальная классификация для дата-центров. В соответствии с этой классификацией существует 4 уровня надежности ЦОД:
- Tier 1. На этом уровне возможны отказы оборудования. Причем проведение ремонтных работ вынуждает остановить работу всего дата-центра. ЦОД уровня Tier 1 обычно не имеют резервных источников бесперебойного питания и электроснабжения. Также отсутствует схема резервирования.
- Tier 2. В этом случае ЦОД имеет резервные источники электроснабжения и фальшполы. За счет этого снижается риск сбоев. Но при этом проведение ремонтных работ также предусматривает полную остановку работы дата-центра.
- Tier 3. Главным отличием этого уровня является возможность параллельной работы дата-центра и проведения технических работ. В частности, на работу ЦОД не повлияет замена компонентов системы, а также удаление или добавление нового оборудования. Дата-центры, соответствующие уровню Tier 3, оснащены несколькими каналами охлаждения и распределения электроэнергии. Но при этом всегда активно работает только один канал.
- Tier 4. Это наивысший уровень надежности. Каждый элемент системы двукратно зарезервирован. Работа такого ЦОД продолжается вне зависимости от необходимости проведения ремонтных или профилактических работ.
Возможности виртуального ЦОДа
Возможности виртуального ЦОДа практически безграничны с технической точки зрения и привлекательны с точки зрения бизнеса.
Симметричность потребностям бизнеса
Современные предприятия используют технологии как ключевой фактор производительности и эффективности бизнеса. При таком подходе базовые вычислительные ресурсы должны способствовать гибкости бизнес-операций. Виртуальный центр обработки данных делает возможным оперативное масштабирование за счёт выделения ресурсов по запросу. Скорость и лёгкость изменений во многом являются конкурентным преимуществом. При использовании виртуального ЦОДа оборудование, приложения и сервисы перестанут быть узким местом в бизнес-процессах, что позволит внедрять новые бизнес-модели и сосредоточиться на других направлениях развития компании.
Мобильность данных
Для эффективной бесперебойной работы предприятия его сотрудники должны получать доступ к ИТ-инфраструктуре компании и данным из любого места и в любое время. Технология вЦОД обеспечивает абсолютную мобильность данных. Когда данные являются мобильными и доступными, сотрудники могут направить свои усилия на работу с ними, а не тратить ресурсы на менее важные задачи.
Соблюдение требований безопасности и защита данных
Виртуальный ЦОД обеспечивает безопасность за счёт надежной изоляции в многопользовательской среде. Функциональный уровень изолирован от базовой аппаратной инфраструктуры, изоляция распространяется на другие виртуальные сети, потому трафик данных между виртуальными машинами остается инкапсулированным и безопасным. Конфигурации поддерживаются независимо от распределения оборудования, не требуют ручного вмешательства при динамическом распределении ИТ-нагрузок для балансировки, резервного копирования и аварийного восстановления. В случае, когда требуются более строгие меры, администратор всегда может по запросу изменить настройки, ограничить или увеличить нагрузки, привести систему в соответствие внутренней политике безопасности компании.
Управление затратами и прибыльность
Прогрессивные организации заинтересованы в соответствии своих инвестиций в IT стратегическим бизнес-целям, поэтому стоимость ИТ-инфраструктуры становится ключевым моментом. В среде виртуального ЦОДа программные приложения и сервисы отделены от физического оборудования, что позволяет гибко управлять несколькими ИТ-нагрузками в общем пуле ресурсов инфраструктуры. Так выполняется задача рационального использования ресурсов рационального использования ресурсов — каждый компонент используется оптимальным образом, расходы прозрачны, и ими тоже можно управлять.
При использовании виртуального ЦОДа сводятся к минимуму факторы, в прошлом влиявшие на высокую стоимость ИТ: нет привязки к поставщику ПО, проблем с интеграцией, а инфраструктурная среда становится более гибкой.
Скорость и гибкость ИТ-инфраструктуры
Современный бизнес-ландшафт, тесно завязанный на информационных технологиях, находится в состоянии непрерывной и быстрой эволюции. Чтобы оставаться актуальными в меняющемся мире, организации должны внедрять различные технологии для ускорения циклов выпуска продукта. Технологии виртуального центра обработки данных позволяют организациям устанавливать конфигурации на основе политик, которые автоматически выделяют аппаратные ресурсы по запросу для удовлетворения ежедневных потребностей бизнеса. И происходит это в считаные минуты — необходимо буквально совершить несколько кликов мышью.
Повышение производительности ИТ-отделов
Исследовательский центр по вопросам конфиденциальности, защиты данных и информационной политики Ponemon Institute регулярно обнародует данные исследований , которые показывают, что больше половины простоев сети обусловлены человеческим фактором.
Основные причины незапланированных отключений. Сравнение результатов 2010, 2013 и 2016 годов
В 22% случаев основной первопричиной незапланированного отключения становятся такие факторы, как случайность или человеческий фактор. Ещё 22% приходится на кибератаки.
При этом процент отключений по причине человеческого фактора не изменился с 2013 года, что указывает на отсутствие прогресса в сокращении того, что должно бы быть предотвратимой причиной простоев.
Показатель в 22% для кибератак отображает рост на 20% по сравнению с 2013 годом и на 167% по сравнению с 2010 годом.
Виртуальный ЦОД избавляет бизнес от необходимости использовать ручной труд и обеспечивает реальную автоматизацию IT. В результате специфика управления ресурсами инфраструктуры не избавляет от ошибок полностью, но позволяет их минимизировать до приемлемого уровня.
Tier III — параллельное техническое обслуживание
- Допустимое время простоя за год – 1 час 36 минут
- Показатель доступности – 99,982%
- Резервирование – частичное (N+1 / 2N)
- Уровень надежности – высокий
Дата-центр уровня Tier 3, пожалуй, самый распространенный на сегодняшний день. Это связано с потребностями современного бизнеса, который не готов мириться с простоями и потенциальными перебоями своих сервисов. Такие дата-центры обладают высокой степенью надежности, где резервируется все компоненты инфраструктуры. Объекты III включают в себя все компоненты предыдущего уровня в классификации Uptime Institute. Тем не менее разница между ними достаточно ощутима. Даже если смотреть на допустимое время простоя в год, то объект Tier 3 сокращает его на 92,7% (20 часов) по сравнению с предшествующим уровнем.
Для объекта уровня Tier III характерны:
- Наличие дополнительных каналов электропитания по схеме резервирования N+1;
- Использование промышленных систем охлаждения и кондиционирования с резервированием, а также систем контроля ТВР – температурно–влажностностного режима в серверных залах;
- Присутствие ДГУ – дизель–генераторной установки на случай аварий энергосети;
- Наличие нескольких независимых энерговводов;
- Распределенное резервирование каналов связи;
- Соответствие регламентам и применение инструкций при работе эксплуатационной команды дата-центра;
- Наличие систем противопожарной безопасности: раннего оповещения, противодымной вентиляции, установок газового пожаротушения;
- Использование фальшпола;
- Присутствие промышленных ИБП в машинных залах;
- Возможность проведения технических работ и обслуживания ЦОД без остановки;
- Расположение ЦОД в отдельном здании с огороженной территорией;
- Уровень безотказной работы Uptime – 99,982% в год.
Благодаря своим свойствам и системам, дата-центры 3 уровня можно рассматривать как всесторонне надежный объект. Большинство онлайн-сервисов, компаний разной величины, государственных структур использует для своей работы именно данный класс дата-центров.
Главное, что нужно знать про ЦОД уровня Tier III:
Инженерные системы ЦОД уровня 3 многократно зарезервированы по электропитанию, охлаждению и каналам связи, однако постоянно активной или основной является только одна из них. Подобная инфраструктура дата-центра позволяет проводить работы и ремонт компонентов без принудительной остановки всего объекта.
В центрах обработки данных Tier III все компоненты инженерной системы продублированы. Это делает объект надежным к размещению оборудования, аренде выделенного сервера или облачной инфраструктуры. К услугам дата-центра данного уровня прибегают компании, для которых крайне важны качество связи, бесперебойность энергопитания, физическая безопасность.
Андрей КУВАЛДИН
Нельзя не упомянуть о высокодоступных аппаратных платформах, в которых функции избыточности и восстановления при сбоях реализованы на системном уровне. Исторически в данном сегменте сильны позиции мэйнфреймов. Это актуально прежде всего для тех предприятий, которые применяют подобные платформы много лет.
Наиболее предпочтительны решения, реализующие функции отказо- и катастрофоустойчивости непосредственно на прикладном уровне либо на уровне программной платформы (ПО промежуточного уровня). Такая реализация позволяет отрабатывать сбои, с минимальными потерями, задержками и накладными расходами. Общее правило: чем выше уровень, на котором реализуются функции высокой доступности, тем лучше.
Уровень платформы – наиболее подходящий, поскольку в данном случае разработчики прикладной функциональности изолированы от непрофильных для них низкоуровневых системных вопросов. Платформа сохраняет для них ощущение надежности системного уровня. В современных распределенных интернет-приложениях с массовым параллелизмом платформа самостоятельно отслеживает исправность узлов и в случаях сбоев перераспределяет часть нагрузки. Существенным является то, что уже на уровне дизайна предполагается, что инфраструктура не является надежной.
На уровне архитектуры традиционные банковские приложения значительно отличаются от интернет-приложений. Как правило, в банковской сфере ключевыми являются требования транзакционности и согласованности данных. По этой причине обычно применяются классические монолитные реляционные базы данных. В банковской сфере наиболее распространено решение проблем отказо- и катастрофоустойчивости при помощи кластерных решений. Некоторые дополнительные возможности в части локальной отказоустойчивости привносит СУБД Oracle RAC, позволяющая обслуживать одну базу данных несколькими серверами одновременно, однако вопрос адаптации приложений к RAC является весьма непростым.
Сообщество разработчиков банковского ПО довольно консервативно, поэтому ситуация в этой сфере будет меняться не очень быстро. Тем не менее у наиболее технологически продвинутых банков есть потребность в переходе на распределенные платформы, и в будущем соответствующие изменения будут происходить и в части обеспечения надежности банковских систем.
TIER IV
Теперь рассмотрим самый надежный сценарий празднования Дня суетолога. При заказе алкоголя выберем не только два разных маршрута, но еще и увеличим вдвое количество «Егермейстера» и пиццы. Мы покупаем одну бутылку в магазине, вторую заказываем доставкой и еще два «Егеря» с пиццей принесут наши друзья. Кроме того, для празднования у нас появляется не просто отдельный дом, а настоящий бункер, в который не смогут прийти соседи и попросить сделать потише в 22:00.
Мы покупаем один «Егермейстер» в магазине, второй закажем доставкой и еще два с пиццей принесут друзья
Такая схема отвечает дата-центру уровня TIER IV. Это ЦОД с полной системой резервирования 2 (N+1). В двух словах — это дублирование дублей каждой составляющей инфраструктуры дата-центра. В TIER IV есть все резервные каналы (питания, энергоснабжения, кондиционирования) и есть дубль как основного, так и дополнительного канала.
На случай, если падает и основная и дополнительная система дублирования, то в резерве есть еще две. Беспроигрышный вариант. Также дата-центр такого уровня это не просто отдельно стоящее здание. Некоторые из них действительно построены на месте бывшего бункера. Что в случае с проведением вечеринкой огромный плюс — сосед не сможет прийти в 22:00 и попросить сделать потише, ведь мы празднуем практически в «бункере».
Резервирование электропитания
Ключевой параметр, который обеспечивает надёжность работы и высокий аптайм, — это резервирование электропитания.
В частности, уровень Tier 4 требует наличия системы резервирования 2N+1, то есть двукратное резервирование плюс одна дополнительная система на случай технического обслуживания одной из двух основных. Это максимальный уровень надёжности. Такой реализован в дата-центре «Миран».
Схема резервирования электропитания в «Миран»
В целом сводка требований стандарта Tier выглядит следующим образом.
Cводка требований стандарта Tier
В таблице собраны все требования, определяющие четыре различных уровня классификации стандарта Tier. Распределение бесперебойного энергоснабжения определяется в данной таблице как участок схемы от выходов ИБП до ИТ-нагрузки.
Tier I | Tier II | Tier III | Tier IV | |
Минимальное кол-во активных компонентов, поддерживающих ИТ-нагрузку | N | N+1 | N+1 | N после любого отказа |
Каналы распределения — входной участок системы энергоснабжения | 1 | 1 | 1 активный, 1 запасной | 2 активных одновременно |
Распределение бесперебойного энергоснабжения | 1 | 1 | 2 активных одновременно | 2 активных одновременно |
Возможность обслуживания без остановки оборудования | Нет | Нет | Да | Да |
Отказоустойчивость | Нет | Нет | Нет | Да |
Секционирование | Нет | Нет | Нет | Да |
Непрерывное охлаждение | Нет | Нет | Нет | Да |
Понимание предпочтений игроков
Предпочтения киберспортсменов к разным видам турниров отличается от игрока к игроку. Онлайн турниры позволяют игрокам выступать из своей зоны комфорта: из дома или с буткемпа, где они уже ко всему привыкли и всё настроили под себя.
В свою очередь, на LAN турнирах игрок обязан приспосабливаться как к окружению, так и к оборудованию. Какие-то слетевшие при переносе на другой компьютер настройки или драйвера в играх вроде CS:GO, где важен идеальный аим, могут решить выиграешь ты или проиграешь.
Да, игра из дома менее стрессовая, но иногда этот фактор может сыграть с профессионалами злую шутку. Играя из дома, человек может не быть полностью сфокусированным на игре, слишком расслабиться и, как итог, не показать своей лучшей игры. Арена, заполненная людьми, может зарядить игрока и дать ему дополнительную мотивацию играть лучше.
Чем виртуальный ЦОД лучше облачного сервера (VPS/VDS)?
Облачный сервер — распространённая услуга хостинга данных: бизнес берёт в аренду у провайдера виртуальный выделенный сервер. С точки зрения управления операционной системой эта модель мало отличается от физического сервера, а разница между VDS (Virtual Dedicated Server) и VPS (Virtual Private Server) заключается в типах виртуализации. VPS — виртуализация на уровне операционной системы, VDS — аппаратная виртуализация.
Утверждать, что виртуальный ЦОД лучше облачного сервера, будет некорректно, поскольку технологии во многом схожи. А вот то, что вЦОД позволяет проявлять большую гибкость, — факт. В чём бы ни заключались текущие потребности компании, в какой бы момент они ни возникали и скольких ресурсов ни потребовали, виртуальный ЦОД позволяет удовлетворить их быстро и просто.
Хорошо, а какие бывают ЦОДы?
Самая основная категория разделения дата-центров — по уровню надёжности и безопасности центры обработки данных. Здесь выделяются четыре категории: Tier 1, Tier 2, Tier 3 и Tier 4. Что это такое?
Давайте рассмотрим каждую категорию подробнее.
Tier I
Это базовый уровень надёжности с отказоустойчивостью 99,67%. В случае ошибок и отказов работа ЦОД прерывается. В требованиях уровня Tier 1 не предусмотрено обязательное использование источников бесперебойного питания и возможность резервирования данных. Сам стандарт достаточно сильно устарел.
Tier II
Так же, как и в 1 уровне, работа ЦОД может быть прервана из-за ошибок и отказов. Однако этот уровень предусматривает улучшенные условия размещения оборудования: резервные источники электроснабжения, фальшполы, избыточные системные ресурсы, улучшенные системы охлаждения. Отказоустойчивость для этого стандарта — 99,75 %.
Tier III
Основное преимущество и отличие от первых двух стандартов в том, что ЦОД этого уровня не нужно останавливать для ремонта и профилактических работ. Это очень удобно для организаций, которые ведут круглосуточное взаимодействие со своими клиентами. Для соответствия Для соответствия Tier 3 ЦОД должен иметь полное резервирование всех систем жизнеобеспечения. Отказоустойчивость этого уровня — 99,98%. REG.RU в том числе, предлагает аренду выделенных сервероы или размещение в дата-центре Tier III. .
Tier IV
На сегодняшний день это наивысший уровень надёжности ЦОД с отказоустойчивостью 99,99%. В требования этого стандарта входит двойное резервирование и полное дублирование всей системы
Этот уровень надёжности ЦОД рекомендован военным и финансовым организациям особой важности
Для кого введены уровни надежности ЦОД
Любая классификация должна быть ориентирована на определенный круг лиц. Классификация Tier описывает надежность функционирования ЦОД и является необходимой для компаний, как желающих построить свой ЦОД, так и для арендующих чужие вычислительные мощности. В зависимости от критичности бизнеса компании, в зависимости от потерь, которые компания понесет в случае остановки её бизнес-процессов избирается тот или иной Tier.
В свою очередь, высокий уровень надежности требует высоких как капитальных, так и эксплуатационных затрат, поэтому и стоимость вычислительных мощностей также резко зависит от уровня надежности ЦОД.
Цели и задачи
Изначальной целью почему-то заявляется снижение совокупной стоимости IT-инфраструктуры для того же бизнеса за счет сокращения расходов на администрирование, перераспределение нагрузок и прочее прочее.
На самом деле это не совсем так, благо цена на обслуживание инфраструктуры и мощностей заложена в стоимость аренды юнита (и всех услуг) в дата-центре, равно как и почти все остальные накладные расходы, что с этим связаны. Бизнес не работает себе в убыток, пускай и выигрывает на “расходниках” за счет плотности, инфраструктуры и оптовости.
Единственно-разумной и точной целью существования центров обслуживания и хранения данных является обеспечение стабильной и бесперебойной работы всего размещенного в нём сетевого, серверного и иного оборудования. В общем и целом это можно назвать uptime, про который мы еще поговорим далее.
Ресурсы и мощности, масштабируемость и стоимость, размеры и люди, — это второе. Стабильность и бесперебойность, — первое.
2.2. Подходы к защите сетевой инфраструктуры предприятия
Рассмотрим подходы к защите сетевой инфраструктуры на примерах предприятий различных размеров – от небольшого офиса до крупной организации.
Реализация защищенной сети для небольшого офиса
Для небольших офисов с количеством сотрудников до 25 человек рекомендуется использовать UTM решение, которое в одном устройстве объединяет полный функционал безопасности, включающий межсетевой экран, антивирус, анти–спам, IPS, защита от атак DoS и DDoS, веб и контент фильтрация, различные способы построения VPN. Такие продукты производят компании Fortinet и SonicWall, лидеры на рынке в данной области. Устройства имеют полноценный веб интерфейс управления, что упрощает задачу конфигурации для администратора, который зачастую в маленьких компаниях только один. Наличие в оборудовании достаточного количества проводных и беспроводных интерфейсов, поддержка удаленного доступа к корпоративным ресурсам, интеграция с различными службами каталогов делает эти устройства идеальным решениям для небольшого офиса. Для подключения проводных пользователей в решение рекомендуется добавить управляемый коммутатор второго уровня с настроенной защитой от атак из локальной сети. Логическая схема решения изображена на рис.2 .
Рисунок 2. Логическая схема реализации безопасной инфраструктуры в небольшом офисе
Примеры решений безопасной инфраструктуры для среднего офиса
Для средних офисов рекомендуется модульная организация сети, где каждое устройство отвечает за определенный круг задач. На таких предприятиях локальную сеть необходимо строить с обязательным разделением уровней ядра и доступа пользователей. При большом количестве серверов отдельно выносить коммутаторы агрегации дата центра. Рекомендуется разграничить функции пограничного маршрутизатора и межсетевого экрана, разделив их на два разных устройства. Сервера, к которым необходим доступ извне, перенести в отдельную зону DMZ . Резервирование модуля подключения к Интернет можно достичь путем дублирования всего оборудования и настройки на них соответствующих протоколов отказоустойчивости. При наличии в компании филиалов, надомных и мобильных сотрудником, подключения к корпоративным ресурсам необходимо обеспечить по технологии VPN. Также одним из важных составляющих решения безопасности есть программное обеспечение для мониторинга сети, наличие которого существенно облегчит работу сетевых администраторов и позволит вовремя реагировать на угрозы, обеспечивая этим непрерывность работы всех сетевых сервисов. Пример реализации отказоустойчивой сетевой инфраструктуры для предприятия средних размеров изображено на рис.3 .
Рисунок 3. Логическая схема реализации безопасной инфраструктуры для среднего офиса
Для построения такого рода решения рекомендуется использовать оборудование производителей Cisco, HP, Huawei, Fortinet, SonicWall, PaloAlto, у каждого из которых есть свои сильные стороны и уникальные особенности, которые в сумме позволяют получить безопасную и в то же время прозрачную для управления и мониторинга сеть.
Сетевая безопасность в большой распределенной сети предприятия
Сеть большого распределенного предприятия по принципу реализации подобна к среднему и отличается большим распределением функций между устройствами, высшим требованием к отказоустойчивости, наличием выделенной WAN сети для передачи данных между филиалами. Модуль подключения к WAN в целях безопасности реализуется отдельно от модуля подключения к Интернет. Пример реализации сетевой инфраструктуры указан на логической схеме на рис.4 . Для построения такой сети используется оборудование тех же производителей, которые были перечислены для среднего предприятия.
Рис. 4. Логическая схема реализации безопасной инфраструктуры на большом распределенном предприятии
Перенаправление операций ввода вывода
Модуль перенаправления ввода/вывода
В виртуализации без резервирования, ввод-вывод направляется из виртуальной машины ниже на физический уровень и обратно из физического уровня в виртуальную машину. В данном решении, ввод-вывод кроме того направляется на другой узел, чем обеспечивается резервирование данных в случае сбоя одного из устройств. Если устройство неисправно, то оно удаляется из работы и предпринимаются соответствующие восстановительные действия прозрачные для приложения.
В случае выхода из строя сетевого адаптера, сетевой трафик будет маршрутизироваться через другой узел. Рис .1.
В случае сбоя диска, виртуальная машина будет работать с исправным диском на другом сервере.- Рис.2
Согласованное состояние приложений и данных между узлами системы будет обеспечено и в случае, когда один из серверов выйдет из строя. Данные и транзакции не потеряются..
Рис.1.Работа сетевой подсистемы
Рис.2.Работа дисковой подсистемы
Уровни отказоустойчивости
Каждый уровень доступности определяется по метрикам отказоустойчивости
Уровни доступности указаны по аналитическим отчётам IDC
Высоконадёжный уровень (Reliable)
Начальный уровень. Многие приложения не требуют защиты или просто используется оборудование с аппаратным резервированием возможностью горячей замены.
Требуется восстановление, но процесс управления не зависит от этих приложений.
Восстанавливаемый уровень (Recoverable)
Обеспечивается механизмами репликации данных.
Высокая доступность (Highly Available)
Уровень доступности для ERP систем, баз данных, почтовых и других сервисов, которые обеспечивают производственные процессы. Когда сервисы становятся недоступными, возможна потеря данных, что может значительно сказаться не цену простоя. Для этого уровня необходим расчёт метрик RTO и RPO.
Постоянная доступность ( Fault Tolerant)
Этот уровень требуется для критически важных задач, когда недопустимо малейшее время простоя и потеря транзакций
Основные метрики отказоустойчивости
Время восстановления –RTO (Recovery Time Objective)- время, в течение которого система должна быть восстановлена.
Определяет максимальное время недоступности сервиса.
Точка восстановления— RPO (Recovery Point Objective)- точка восстановления.