Мифы и заблуждения относительно Tier-системы сертификации Uptime Institute

Мифы и заблуждения относительно Tier-системы сертификации Uptime Institute 21 Сентября 2018

Правда или миф? Когда дело доходит до сертификации дата-центра, просто спросите Uptime Institute

Уровневая (Tier) Система Классификации Uptime Institute для центров обработки данных уже “отметила” свое двадцатилетие. С момента своего создания в середине 1990-х, уровни превратились из общепринятой отраслевой терминологии в глобальный стандарт для валидации критической инфраструктуры центров обработки данных.

За это время отрасль изменилась, а Tiers-система развилась вместе с ней, оставаясь столь же актуальной и важной, как и тогда, когда Uptime Institute впервые разработал и опубликовал сведения о своей системе классификации. В то же время, специалисты Uptime Institute отмечают, что понимание системы уровней обществом было омрачено многими мифами и заблуждениями, которые появились за эти годы.

Uptime Institute уже давно осознает, что не все в полной мере понимают идеи, описанные в стандартах Tier, а некоторые не согласны с частью определений. Обе эти ситуации приводят к классическим недоразумениям, в которых люди делают выбор в пользу своих желаний вместо получения точной информации.

Однако в других случаях маркетологи ссылаются на своего рода условные обозначения, основанные на системе уровней. Фантазии, такие как Tier III plus, используемые рекламщиками в беседах со своими потенциальными клиентами, не имеют никаких оснований в классификации Uptime Institute, но могут быть доводами, вводящими в заблуждение специалистов по закупкам, тендерам, недвижимости, CFO и даже IT-сотрудников, не имеющих соответствующей базы технических знаний.

Другие мифы распространяются потому, что некоторые профессионалы отрасли ссылаются на устаревшие публикации и пояснительные материалы, которые больше не являются действующими стандартами. Могут быть и другие источники заблуждений, но иметь понимание того, что Uptime Institute - единственный источник достоверной информации о своей системе классификации, действительно важно.

Специалисты Uptime Institute проводят многочисленные занятия в течение года, пишут множество статей и занимаются запросами, чтобы держать представителей отрасли в курсе актуальной Tier-классификации.

По существу, Uptime Institute создал уровневую систему классификации для систематической оценки различных сооружений и оборудования центров обработки данных с точки зрения потенциальной производительности инфраструктуры или способности безотказно работать (uptime). Система состоит из четырех уровней; каждый уровень включает в себя требования нижних уровней (Tier).
  • Tier I: Basic Capacity (Базовый потенциал, инфраструктура без резервирования)
  • Tier II: Redundant Capacity Components (Дублирование критически важных компонентов, инфраструктура с резервированием)
  • Tier III: Concurrently Maintainable (Инфраструктура с возможностью параллельного ремонта/обслуживания без остановки работы)
  • Tier IV: Fault Tolerant (Отказоустойчивая инфраструктура)
Затраты на инфраструктуру и операционную деятельность центра обработки данных увеличиваются с повышением уровня. Именно владелец ЦОДа определяет уровень, который соответствует потребностям бизнеса.

Uptime Institute - единственная организация, которой разрешено сертифицировать центры обработки данных в соответствии с системой классификации Tier. Uptime Institute не проектирует, не строит и не эксплуатирует центры обработки данных. Роль Uptime Institute заключается в оценке инфраструктуры ЦОДа, оценке его эксплуатации и управленческой деятельности.

Руководствуясь своим опытом, мы собрали и рассмотрели многие мифы и заблуждения. 


Система уровней не затрагивает вопросы соответствия требованиям бизнеса


Неверно. Tiers - это обусловленная потребностями практической бизнес-деятельности система бенчмаркинга ЦОД на основе показателей эффективности деятельности. Допустимый для организации уровень риска определяет требуемый для такого бизнеса “Tier”. Другими словами, уровень зависит от бизнес-модели конкретной компании. Компании, которые не могут прояснить потребности в производительности и надежности для своих объектов до определения TIER-класса, злоупотребляют классификацией и избегают внутреннего диалога, который должен состояться.

Tier IV - лучший уровень.


Неверно. Допустимый для организации уровень риска определяет соответствующий Tier-уровень. Уровень IV не является лучшим вариантом абсолютно для всех организаций, также как и уровень II. Владельцы ЦОДов должны выполнить комплексную оценку (due diligence) своих объектов, прежде чем определить целевой уровень. Если бизнес-цель не определена, то уровни могут быть причиной оправдания ненужных крупных инвестиций.

Tier I и Tier II - это тактические решения, принятие которых, как правило, в большей степени основывается на первоначальной стоимости и времени выхода на рынок, чем на требованиях к затратам в течение жизненного цикла и производительности (uptime). Организации, выбирающие ЦОДы I и II уровня, как правило, не получают основной поток доходов от онлайн-продажи продуктов или услуг. Как правило, эти организации по контракту защищены от ущерба, обусловленного падением ИТ-системы.

Строгие требования к времени бесперебойной работы и долгосрочная отказоустойчивость, как правило, являются стратегическим выбором, который соответствует инфраструктуре уровня III и IV. В дата-центрах III уровня, каждый компонент инфраструктуры, необходимый для поддержки ИТ-процесса, может быть выведен из эксплуатации на плановой основе, не затрагивая критические среды или процессы. Решения уровня IV более надежны, так как все компоненты и пути доставки полностью дублированы и могут выдержать сбой, ошибку или другое незапланированное событие без ущерба для критичных сред или процессов.

Решение уровня IV не лучше решения уровня II. Производительность и возможности инфраструктуры ЦОД должны соответствовать бизнес-целям; в противном случае компании инвестируют “в пустую” или берут на себя слишком большие риски.

Например, перед построением ЦОДа уровня II, который по определению не включает параллельную ремонтопригодность во всех критических подсистемах, владелец должен рассмотреть возможность бизнеса терпеть запланированное или связанное с обслуживанием завершение работы и спланировать то, как оперативная группа будет координировать это завершение для обслуживания.

Именно бизнес-цели должны стимулировать принятие решения о создании ЦОДа уровня TIER I, III или IV.

Количество компонентов строго определяет Tier.


Неверно. Tier Certification - это основанная на производительности оценка специфической инфраструктуры центров обработки данных; это не контрольный список или “поваренная книга”. К сожалению, некоторые отраслевые специалисты для определения уровня доступности пользуются N-терминологий - где N является количеством компонентов, которые минимально необходимы для работы с существующей нагрузкой. Включение избыточных единиц оборудования можно описать как проектирование компонента N+1, N+2, 2N или 2(N+1). Однако увеличение количества компонентов не определяет и не гарантирует достижение какого-либо определенного Tier-уровня, поскольку он также основан на оценке путей доставки и других элементов системы. Таким образом, достичь уровня IV с N+1 компонентов можно только в зависимости от того, как они настроены и подключены к избыточным распределительным путям. 

Сертификация проектной документации (Design Certification) - это единственная значимая сертификация.


Неверно. Действительно, первым шагом является сертификация проектных документов. Консультанты Uptime Institute проверяют 100% проектной документации, гарантируя, что вся электрические, механические системы, системы мониторинга и многочисленные подсистемы автоматизации соответствуют фундаментальным концепциям и в цепи нет слабых звеньев. Сертификация проекта должна стать важной вехой, позволяющей владельцам центров обработки данных начать строительство объекта, зная, что предполагаемый проект может соответствовать целевому уровню.

Пакет документов получает свой Tier-уровень, который является итогом предварительной проверки до Tier Certification of Constructed Facility (Сертификация установленного оборудования). Uptime Institute не проверил построенный объект и, таким образом, не может говорить о том, всё ли было реализовано в соответствии с проектом. Чтобы подчеркнуть этот момент, Uptime Institute обозначает дату истечения срока действия на Tier Certification of Design Documents. Сроки действия подтверждений Tier-уровня, выданные после 1 января 2014 года, истекли через два года после даты присуждения.

Во время сертификации ЦОДа группа консультантов Uptime Institute выезжает на объект, выявляя расхождения между проектными чертежами и установленным оборудованием. Консультанты наблюдают за тестами и демонстрационными запусками, чтобы определить соответствие уровню отказоустойчивости. По существу, ценность сертификации - возможность найти эти слепые зоны и слабые звенья в цепи. Консультанты Uptime Institute говорят, что почти при каждом посещении ЦОДов они обнаруживают, что были внесены изменения в проект, прошедший Tier Certification of Design Documents, и одна или несколько систем или подсистем не будут работать так, как требуется для выбранного Tier.

Совсем недавно Uptime Institute ввел сертификацию уровня операционной устойчивости (Tier Certification of Operational Sustainability) для оценки работы операторов ЦОДа и их способности управлять критически важными объектами. Даже сконструированные и построенные самыми отказоустойчивыми дата-центры могут испытать тяжелые последствия аварий без хорошо проработанных всесторонних антикризисных программ. Сертификация на всех трех уровнях - это способ владельцам ЦОДов получить уверенность в том, что они максимально реализуют потенциал своих объектов.

Tier-уровень соответствует ожидаемому времени простоя в год.


Неверно. Uptime Institute удалил информацию об "ожидаемом в год простое" из Tier Standard в 2009 году, но они никогда не были частью определений Tier-уровня. Топология основана на конкретных факторах производительности, которые демонстрируют, что объект достиг конкретных целей, таких как наличие избыточных компонентов, параллельная ремонтопригодность (как правило, возможность удалить любой компонент или канал доставки на плановой основе, не влияя на работу ИТ-систем), или Отказоустойчивость (как правило, способность продолжать работу при любых незапланированных сбоях в инфраструктуре ЦОДа). Однако даже центр обработки данных Tier IV, который является Отказоустойчивым, может испытывать простои, если его работа не поддерживается эффективным персоналом.

Существуют статистические инструменты для прогнозирования частоты отказов и времени восстановления. Availability - это просто арифметический расчет времени, в течение которого ЦОД был доступен с момента запуска или за конкретный период. Количество, частота и продолжительность сбоев будут изменять показатель доступности. При использовании стат. инструментов следует соблюдать осторожность. Деятельность человека часто не рассматривается в статистических моделях. Кроме того, в статистическом прогнозе столетнего шторма, например, может быть упущено то, что в одном году может произойти несколько столетних штормов.

Сертификация Tier применяется только к вновь построенным объектам.


Неверно. Uptime Institute сертифицировал многие уже существующие объекты. Однако, процесс может быть более трудоемким при работе в ЦОДах с полезными нагрузками от пользователей в реальном времени. Для достижения наилучших результатов при работе с существующим объектом процесс лучше начать с анализа недоработок Tier Gap Analysis, а не с формальной сертификации. Tier Gap Analysis представляет собой анализ основных недоработок ЦОД (при их наличии). Это позволяет владельцам принять обоснованное решение о необходимости дальнейшей детальной сертификации. Сертификация уровня построенного объекта может быть выполнена с любым профилем нагрузки.

Уровни Uptime Institute ориентированы на США.


Неверно. Uptime Institute в настоящее время проводит сертификацию в более чем 85 странах. В процессе разработки и реализации проектов не было отмечено случаев конфликта между нормативами Tier и местными строительными нормами, постановлениями и органами власти. Стандарты Tier, предоставляющие различные решения и множество конфигураций, обеспечивают инженерной и производственной командам возможность соответствовать как местным нормам и нормативам, так и эксплуатационным требованиям.

TIA-942-это руководство для уровней Uptime Institute.


Неверно. В 2014 году Uptime Institute и The Telecommunications Industry Association (TIA) договорились о четком разделении их систем бенчмаркинга, чтобы избежать путаницы в отрасли и четче определить подотчетность. В действительности, любая ссылка на TIA-рейтинг центра обработки данных не может включать слово “Tier” (по мнению Uptime Institute). Также для обозначения проектов на основе стандарта Tier Uptime Institute рекомендует использовать римские цифры (I, II, III, IV).

Основная цель уровней Tier Uptime Institute — создание должной топологии инженерных систем для обеспечения высокого уровня надежности в соответствии с экономической моделью владельца. Стандарты Tiers Uptime Institute оценивают ЦОДы по их возможностям обеспечения качества обслуживания и отказоустойчивости. В отличие от этого, эксперты TIA акцентируют внимание на необходимости поддержки развертывания передовых коммуникационных сетей. 

Количество каналов поставки электроэнергии определяет Tier-уровень.


Неверно. По данным стандарта: топологически единственным по-настоящему надежным источником питания для дата-центра является двигатель-генераторная установка. Это связано с тем, что электроснабжение может быть приостановлено даже в местах с надежными электрическими сетями. В результате, количество питающих электрических вводов, подстанций, энергетических систем, обеспечивающих поставку электроэнергии к объектам не предопределяет и не влияет на выбор стандарта Tier. Как следствие, электроэнергия из коммунальной сети даже не требуется для сертификации любого уровня. Большинство сертифицированных центров обработки данных используют такую электроэнергию для основных операций в качестве экономической альтернативы, но это решение не влияет на достижение целевого Tier-уровня при сертификации.

Для стандартов Tier III и IV двигатель-генератор должен находиться в постоянной эксплуатации.


Неверно. В основном ЦОДы используют электроэнергию из энергосистемы общего пользования. Однако работа двигатель-генератора должна быть должным образом рассчитана и настроена, чтобы принять на себя всю критическую нагрузку без ограничения времени работы. При расчетах необходимо обратить особое внимание на номинальные характеристики и питание двигателя-генератора. В любом случае стандарты Tier Uptime Institute не требуют постоянной работы двигателя-генератора.

Система уровней Uptime Institute основана на правилах работы дизельных двигателей из стандартов Агентства по охране окружающей среды (EPA) США.


Неверно. Нет никакой корреляции между уровнями из стандартов EPA (или другими ограничениями работы двигателя-генератора) и уровнями Uptime Institute, за исключением того, что обе системы используют схожую иерархическую систему терминов. Ограничения EPA на время работы дизельных генераторов могут усложнить тестирование и обслуживание объектов и добавить затрат в случаях, когда ЦОД вынужден полагаться на резервную энергию в течение длительного периода времени. Однако такое ограничение времени работы, создаваемое местными органами власти, не освобождает центр обработки данных от обязанности работать с номинальной мощностью без ограничений по времени и при постоянной нагрузке.

Как влияет EPO (Система аварийного отключения электропитания) (или другие требуемые нормами системы, необходимые для отключения критической нагрузки) на классификации Tier Classifications?


Обязательное наличие системы EPO в соответствии с нормами или внутренней юрисдикцией не обязательно означает несоответствие Tier. Мы действительно требуем демонстрации того, что обслуживание системы EPO может проводиться без воздействия на критическую нагрузку. Кроме того, Uptime Institute рекомендует при возможности избегать использования системы EPO, так как последнее считается доказанной причиной остановки ЦОД при его случайной активации. Они же являются средством обеспечения преимущества безопасной работы без риска для операционной устойчивости. Для центров обработки данных IV уровня дополнительно требуется Отказоустойчивая система EPO.

Стандарты Tiers Uptime Institute требуют наличия фальшпола.


Неверно. Наличие подпольного или потолочного охлаждения — выбор владельца на основании эксплуатационных предпочтений. Опыт Uptime Institute показывает, что фальшпол улучшает гибкость в эксплуатации на долгое время. В то же время такие решения, как фальшпол, «холодный коридор»/«горячий коридор», изоляция «холодного коридора»/«горячего коридора» могут влиять на эффективность работы компьютерного помещения, но НЕ являются обязательным для стандартов Tiers Uptime Institute.

Встроенное АВР (устройство автоматического ввода резерва - automatic transfer switches (ATS)) отвечает требованиям дублирования линий подачи питания сервера (например, на сервере один кабель от сервера на АВР, но АВР (стоечный) имеет два ввода питания)


Верно. Tiers предусматривает возможность подсоединения оборудования с нечетным количеством кабелей (1,3,5) к стоечному переключателю для обеспечения возможности питания от различных линий питания. Однако центры обработки данных уровня III и уровня IV все еще должны иметь несколько независимых каналов питания к стойке.

Стандарт фокусируется на обеспечении того, чтобы инфраструктура объекта соответствовала целевому уровню бесперебойности процесса. Существует много причин, по которым объект может содержать ИТ-устройства с одним или с нечетным количеством источников питания, включая отсутствие знаний о значимости оборудования, отсутствие нужных вариантов у поставщиков оборудования, colocation-среды, где персонал ЦОДа не имеет контроля над типами ИТ-устройств.

Rack-based (встроенные) устройства ввода резерва наиболее типично выбираются так, что инфраструктура может соответствовать Tier-целям. Однако, запланированное отсоединение или отсутствие этих встроенных переключателей резерва может привести к аварии для конкретной стойки или оборудования.

Tier II предоставляет возможности проведения ремонта без остановки.


Частично верно. Для Стандарта Tier II обеспечиваются компоненты избыточной мощности (например, двигатель-генераторы и воздухоохладители), но требуется остановка работы компьютерной комнаты на время планового технического обслуживания или замены критического оборудования (например, коммутаторов).

Определяющим параметром для стандарта Tier III является предусмотренная возможность ремонта без остановки критического оборудования (Concurrent Maintenance). Digital Realty Trust утверждает следующее: «На самом деле возможность ремонта без остановки критического оборудования является одной из важнейших проектных характеристик ЦОДа. Независимо от того, относится ли ваш проект к стандарту Tier IV или Tier II, у вас должна быть возможность технического обслуживания объекта без его остановки». Digital Realty Trust упоминает о решениях для стандартов Tier II и IV, но ничего не рассказывает о Tier III. Требования к поддержанию инфраструктуры без остановки критического оборудования определяет стандарт Tier III. Стандарт Tier III необходим владельцам многих бизнес-моделей, включая владельцев объектов в сфере здравоохранения, внешних поставщиков услуг и органов власти.

ЦОД Tier III соответствует требованиям стандарта, если одна из избыточных ветвей неактивна.


Частично верно. Уровень III требует active/active ветвей для поставки критических мощностей (которые определены как выход из системы бесперебойного питания и ниже). Вне этого участка, схема active/inactive является приемлемой. Это значит что если стойка получает двойную подачу от 2 отдельных каналов электропитания, то они в норме должны быть активны. Не разрешается иметь ветвь питания в норме неактивной, но для Tier III приемлемо наличие только одного активного канала подачи электропитания от сетей общего пользования до источника бесперебойного питания (UPS).

В центрах обработки данных Tier III нет требования active/active к механическим системам. Так если установлены N + 1 охладителей в ЦОДе Tier III, допустимо для одной из петель подачи быть неактивной.

В инфраструктуру ЦОДа нельзя вносить изменения после сертификации построенного объекта (Tier Certification of Constructed Facility).


Неверно. К изменениям в инфраструктуре необходимо подходить с использованием тщательно проработанных и письменно задокументированных процедур и процессов. Если топология объекта изменяется, она может больше не быть Ремонтопригодной или Отказоустойчивой. Клиенты должны уведомить Uptime Institute, который должен провести перепроверку документации и установленного оборудования. Это может повлиять на топологию объекта с целью защиты инвестиций и подтверждения сертификации. Сертификаты могут быть отозваны, если непреднамеренные изменения ставят под угрозу параллельную ремонтопригодность или отказоустойчивость ЦОДа.

В ЦОДе уровня IV все холодильные агрегаты должны быть работающими.


В основном это неверно. Tier-Стандарт требует только, чтобы объекты Tier IV обеспечивали стабильное охлаждение IT- и UPS-сред в течение времени, необходимого для полного перезапуска механических систем после отключения электроэнергии и поддержания номинальной нагрузки центра обработки данных. Центры обработки данных Tier IV также должны быть в состоянии поддерживать стабильную тепловую среду в течение всего времени перезапуска механических систем и в течение любого 15-минутного периода в соответствии с 2015 ASHRAE Thermal Guidelines. Оборудование уровня IV также должно быть active/active для всех систем. Это должно гарантировать, что решения непрерывного охлаждения не будут терять эффективности из-за отсутствия активной работы компонентов. Слегка нагруженный центр данных или ЦОД с очень сложной системой управления может соответствовать этому без постоянного использования всех доступных холодильных агрегатов. Тем не менее, существуют проекты уровня IV, особенно при полной нагрузке, которые фактически требуют, чтобы все устройства работали и во время выполнения обычных операций.

Система воздуховодов и вентиляции не нужна, чтобы исполнить требования Tier.


Неверно. При сертификации учитывается каждая система и подсистема на уровне клапанов и панелей. Вентиляционная система является трубопроводом и должна иметь запланированное обслуживание и замену. Как таковая, традиционные системы вентиляции должны соответствовать задачам выбранного уровня бесперебойности процесса.

Uptime Institute понимает, что существует путаница в том, что ““maintaining” вентиляционной системы означает удовлетворение требования возможности ремонта без остановки. Но в этом случае параллельная ремонтопригодность заключается в возможности изолировать систему или часть системы для обслуживания, ремонта, обновления или перенастройки без воздействия на любое компьютерное оборудование.

Для стандартов Tiers III и IV требуется территория, окруженная усиленным ограждением. 


Меры по обеспечению физической безопасности критического оборудования наружней установки (например емкости для хранения топлива) входит в требования стандарта Tier. 


Для стандартов Tiers III и IV необходима система оперативного видеоконтроля.


Неверно. Система классификации Tier (Tier Classification System) не устанавливает условий для обеспечения безопасности. Однако на эти факторы физического риска необходимо обратить особое внимание в требованиях владельца по обеспечению эксплуатационной устойчивости.

Уровень безопасности определяется сферой использования, важностью функций ИТ, выполняемых на площадке, и политикой владельца. Например, вполне естественно, что финансовая организация инвестирует в уровень безопасности больше, чем учебное заведение.

Существуют многочисленные оптимальные меры по обеспечению физической защиты инфраструктуры вне зависимости от уровня Tier. К ним относятся биометрические считыватели, оградительные барьеры, КПП, маскировка, ловушки, усиленное ограждение, видеонаблюдение и т. д. Использование передовых методов защиты чрезвычайно важно для снижения риска, связанного с проявлением любознательности, намеренным причинением вреда, криминальными и несчастными случаями. Однако передовые методы не следует путать с требованиями стандарта Tier.
 

Расположение площадки влияет на Tier-уровень.


Неверно. Несмотря на критичность для эксплуатации в течение всего жизненного цикла объекта, его географическое расположение не влияет на уровень Tier.
Проектировщики центров обработки данных могут принять меры предосторожности для устранения конкретных рисков, связанных с местоположением площадки. Центр обработки данных, расположенный в зоне высокого риска землетрясения, может использовать оборудование, которое было оценено и сертифицировано для работы в сейсмически активных локациях, а также могут быть предусмотрены методы, которые смягчат ущерб от сейсмической активности. Или, если центр данных был расположен в зоне с высокого риска торнадо, то инженеры могут рассмотреть способы защиты от ветра для внешнего электро и климатического оборудования.

Местоположение площадки является критерием в сертификации уровня эксплуатационной устойчивости (Tier Certification of Operational Sustainability).

Крис Браун, Энрике Эрнандес, Кевин Хеслин, Джулиан Кудрицки, Эрик Мэддисон, Райан Орр, Сара Томас, Питт Тернер и Рич Ван Лоо внесли свой вклад в эту статью.

Источники:
Нет времени на поиски надежного ЦОДа и создание собственной ИТ-инфраструктуры? Воспользуйтесь услугами профессионального облачного провайдера Cloud4Y. ИТ-архитекторы Cloud4Y выбрали для основы надежные дата-центры и объединили их оптическим кольцом высокой достпуности с дублированием каналов связи. В итоге такое облако позволяет подбирать решения для любого уровня отказоустойчивости вплоть до 99,99%.

Слайд4.JPG
Провайдер берет на себя не только заботы по размещению оборудования в ЦОДах, но и по администрированию среды виртуализации. Воспользовавшись облаком по модели IaaS, вам остается лишь установить необходимое прикладное ПО. Развертывание облачного сервера занимает всего несколько минут. Хотите передать больше ответственности, используете SaaS-услуги. Для того, чтобы получить консультацию по вопросам эффективности в облаке для вашей организации, обратитесь к любому менеджеру Cloud4Y по телефону +7 495 268 04 12 или любым другим удобным способом.