Серверы операторского класса

Основными требованиями к серверам операторского класса (carrier-grade servers), предназначенным для установки на станциях и узлах связи, всегда были сохранение работоспособности даже в экстремальных условиях и устойчивость к различным воздействиям со стороны окружающей среды. На деле речь, как правило, идет о соответствии американскому стандарту NEBS (Network Equipment-Building System), основы которого были заложены еще в 70-х годах специалистами Bell Labs. Стандарт не имеет юридической силы, но при этом фактически определяет ключевые критерии безопасности и надежности, широко используемые при разработке и тестировании оборудования для телекоммуникационных приложений. Однако повышенной надежности и пригодности к экстремальным условиям эксплуатации сегодня заказчикам часто бывает недостаточно — расширяется круг приложений, которым также необходимы высокая производительность и энергоэффективность современных многоядерных процессоров в сочетании с длительным жизненным циклом серверов. Сфера применения подобных продуктов включает унифицированный обмен сообщениями, IP-телефонию, системы мобильной связи и управления голосовым трафиком, услуги «видео по запросу», биллинговые системы и т. д. Более того, расширяется использование таких систем и вне рамок телекоммуникационной отрасли.Одной из особенностей рынка стоечных коммуникационных серверов до некоторого времени было присутствие на нем корпорации Intel наряду с традиционными лидерами серверной индустрии, такими как Oracle (продукты Sun Microsystems) и HP. Первые системы, соответствующие стандарту NEBS, были представлены компанией Intel в конце 2001 года, когда лидирующие позиции на этом рынке занимали серверы семейства Netra компании Sun Microsystems, пользовавшиеся особой популярностью у интернет-провайдеров. В качестве основных заказчиков компания Intel рассматривала OEM-производителей серверов и поставщиков телекоммуникационного оборудования и решений. Несмотря на то что этот бизнес ежегодно приносил компании несколько десятков миллионов долларов, на гребне глобального кризиса в конце 2008 года в Intel было принято решение о его продаже компании Kontron. Новые владельцы бизнеса не стали отказываться от коммерческих подходов, практиковавшихся Intel, дополнив их поставками серверов конечным пользователям и расширив объемы поставок в проектной сфере.Сегмент серверов операторского класса сравнительно невелик — не более 10% от общего объема поставок серверов в финансовом выражении, однако данный сегмент менее подвержен флуктуациям, характерным для рынка серверов в целом. После бурного всплеска в период интернет-бума на рубеже смены тысячелетий в динамике развития рынка серверов операторского класса столь резких скачков не фиксировалось, но наблюдался стабильный рост, составлявший, по оценкам специалистов, в среднем около 3–4% в год.Стандарт NEBSПоскольку спецификации NEBS по сути определяют общепринятые принципы разработки и тестирования оборудования для сферы телекоммуникаций, не будет преувеличением утверждать, что этот стандарт и положил начало рынку серверов операторского класса. Корни NEBS уходят во времена Bell Labs, где была начата разработка унифицированных спецификаций надежности и безопасности для оборудования телефонных станций. После раздела Bell System с середины 80-х дальнейшая работа над спецификациями NEBS осуществлялась под эгидой компании Bellcore, учрежденной образовавшимися в результате раздела региональными операторами связи. Позже компанию переименовали в Telcordia Technologies, а с 2012 года она стала частью корпорации Ericsson.Помимо Telcordia в работе над стандартом NEBS принимают участие четыре крупнейших оператора связи: AT&T, Verizon, BellSouth и Qwest, которые сформировали рабочую группу Telecommunications Carrier Group для выработки унифицированных спецификаций NEBS. Каждый из этих операторов сохраняет за собой право использовать собственные критерии соответствия NEBS, в частности, смягчая или, наоборот, ужесточая те или иные требования в зависимости от характерных особенностей работы их сетей.Спецификациями Telcordia определено три уровня соответствия NEBS. Первый — базовый, призванный минимизировать риск выхода оборудования из строя и ущерб от этого для всей сети в целом. Безопасность систем, отвечающих требованиям первого уровня NEBS, необходимо подтверждать тестированием на соответствие спецификациям GR-63-CORE (устойчивость к физическим воздействиям) и GR-1089-CORE (электромагнитная совместимость). Второй уровень определяет критерии поддержания работоспособности и удобства в использовании для устройств, устанавливаемых в помещениях с системами климатического контроля (например, в ЦОД). Так как эти критерии сформулированы несколько размыто, данный уровень стандарта на практике почти не применяется. Третий уровень NEBS предполагает соответствие всем наиболее строгим требованиям спецификаций GR-63-CORE и GR-1089-CORE, в том числе — устойчивость к воздействию высоких и низких температур, влажности, высоты, а также ударам молнии, землетрясениям, пожарам и т. д. Третий уровень характеризуется наиболее сложной и длительной процедурой испытаний тестовых образцов, на прохождение которой может требоваться несколько месяцев.Cерверных решений, отвечающих требованиям NEBS, на рынке достаточно много, но чаще среди них встречаются более дорогие модульные системы в форм-факторах MicroTCA, AdvancedTCA и CompactPCI. Серверы в стандартном конструктиве обычно представлены скромнее. В этот элитный клуб входят, в частности, такие компании, как Oracle, HP, Kontron, Dell.Некоторые тесты, которым подвергается оборудование при его проверке на соответствие требованиям NEBS, вполне могут шокировать неподготовленного зрителя. Например, при тестировании огнестойкости пламя подводится как к поверхности, так и непосредственно внутрь корпуса устройства, а в ходе тестов сейсмоустойчивости используется симулятор землетрясений, способный создавать условия, аналогичные подземным толчкам магнитудой до 8,2 балла по шкале Рихтера. Для сравнения: 7,9 балла составило значение магнитуды известного землетрясения 1906 года в Сан-Франциско, в результате которого погибли свыше 3 тыс. человек.На смену CompactPCIТехнология AdvancedTCA позволяет строить высокопроизводительные системы нового поколения из готовых стандартизованных комплектующих от разных поставщиков.Леонид Акиншин, Владимир Бретман, Юрий ЯкшинСогласно отчетам о лабораторных испытаниях на соответствие стандарту NEBS, серверы операторского класса в рабочем режиме подвергаются низкои высокотемпературному тестированию (при температурах до -40 и +70 °C соответственно) в климатической камере длительностью не менее трех суток, а также тестам на устойчивость к повышенной влажности (до 93%), резким изменениям температуры окружающей среды и условиям высокогорья. В ходе тестирования на электромагнитную совместимость им приходится выдерживать разряд статического электричества напряжением до 15 кВ в воздушной среде и до 8 кВ — при непосредственном контакте. При этом разряд не должен вызывать каких-либо физических повреждений.Тесты на виброустойчивость, имитирующие транспортировку и офисные условия для серверов операторского класса, показывают их способность выдерживать усиливающиеся вибрации в диапазоне от 5 до 100 Гц по каждой из координатных осей трехмерного пространства в рабочем режиме с изменением амплитуды согласно нормам GR-63-CORE (продолжительность каждого теста, включающего также постепенное уменьшение частоты вибраций обратно от 100 Гц к 5 Гц, составляет 90 минут) и от 5 до 500 Гц в нерабочем, а также — случайные вибрации в диапазоне от 5 до 200 Гц в нерабочем режиме.Снижение вибрацийУстойчивость к вибрациям относится к числу ключевых характеристик надежности компьютерного оборудования, однако, как показывает практика, вибрации также могут оказывать заметное влияние и на производительность в реальных условиях эксплуатации.Основными внутренними источниками вибрации в компьютерах являются жесткие диски и вентиляторы — скорость вращения шпинделя у современных высокопроизводительных серверных жестких дисков составляет 15 тыс. оборотов в минуту, а вентиляторы могут вращаться еще быстрее. Долгое время разработчики серверов не обращали на это особого внимания — считалось, что достаточно плотно прикрепить вентиляторы и жесткие диски к соответствующим отсекам, и дальше можно ни о чем не беспокоиться. Острота проблемы нарастала постепенно — по мере того, как повышалось энергопотребление серверов, что, в свою очередь, требовало все более высокой частоты вращения вентиляторов для их охлаждения, и одновременно увеличивалась плотность записи данных на жестких дисках, становившихся все более чувствительными к вибрациям. Одними из первых, еще в начале 2000-х годов, на эту проблему обратили внимание инженеры подразделения Intel по разработке коммуникационных серверов, начав исследования механических свойств эластичных материалов и возможностей по снижению внутренних вибраций при их использовании для изоляции вентиляторов и жестких дисков от серверного шасси.В современных серверах операторского класса изоляционные материалы позволяют при необходимости полностью освобождать жесткие диски и вентиляторы от контакта с металлическими частями серверного шасси, как бы удерживая их «на плаву» внутри корпуса. Однако необходимость в такой полной изоляции, как показывают результаты исследований, возникает не всегда. И наоборот, изменяя массу структуры, частью которой является источник вибраций, можно добиться лучших результатов с точки зрения их подавления. К тому же разные жесткие диски обладают разной чувствительностью к тем или иным частотам вибраций. Поэтому в каждом отдельном случае важен тщательный подход к нахождению оптимального баланса между двумя указанными методами, который бы обеспечил наилучшую производительность жестких дисков.Не менее важен и правильный выбор вентиляторов, включающий строгий контроль балансировки лопастей и качества подшипников. По мнению спец алистов, производителям серверов вообще имело бы смысл выработать некий общеотраслевой стандарт проверки качества вентиляторов и жестких дисков. Это не только помогло бы совершенствованию антивибрационных механизмов, но и в конечном итоге оказало бы благотворное влияние на производительность и надежность серверных решений, предлагаемых пользователям.Эффект от применения технологий подавления вибраций обычно носит комплексный характер. Если в системе установлено несколько жестких дисков, падает их взаимное вибрационное влияние друг на друга. Более того, снижается влияние вибраций от внешних источников — в частности, от других устройств, размещенных в той же серверной стойке, а также от установленных в здании вентиляционных систем и кондиционеров.На примере исследования антивибрационных механизмов, применяющихся в серверах Kontron, можно видеть, какую пользу приносят технологии подавления вибраций в ситуациях, когда в результате повышения температуры внутри сервера происходит переключение вентиляторов на максимальную скорость вращения (рис. 1). Без технологии подавления вибраций скорость записи данных на жесткий диск может падать практически до нуля, что, в свою очередь, может означать недоступность накопителя для пользователей и даже приводить к системному сбою — если на этом жестком диске установлена серверная операционная система. В то же время наличие антивибрационных механизмов позволяет сохранить производительность на приемлемом уровне, избежав серьезных проблем.Рис. 1. Протокол тестирования антивибрационной технологии Kontron: вверху — если не используется технология подавления вибраций, то производительность жесткого диска падает практически до нуля при выполнении операций чтения при максимальной скорости вращения вентиляторов; внизу — этого не происходит в случае применения технологии подавления вибраций Специалисты склоняются к тому, что в обозримой перспективе твердотельные накопители на основе флэш-памяти не смогут полностью вытеснить жесткие диски с рынка серверных устройств хранения данных, что означает необходимость дальнейшего развития технологии подавления вибраций в коммуникационных серверах. Такое развитие будет подразумевать плотное сотрудничество с производителями вентиляторов и жестких дисков — соответственно с целью разработки вентиляторов с пониженным уровнем производимой вибрации и жестких дисков, менее чувствительных к вибрациям. Вероятно, продолжится и поиск материалов, эффективно поглощающих вибрации.Открытый код и управление платформойНаряду с надежностью к числу ключевых характеристик серверных платформ относятся также возможности локального и удаленного управления ими, а также мониторинга работоспособности. Одним из типовых требований к системам, предназначенным для использования в сфере телекоммуникаций, является обеспечение коэффициента готовности не менее 99,999%, что означает не более пяти минут простоя в год. Поскольку телекоммуникационные системы нередко устанавливаются в помещениях, где не предусмотрено постоянное присутствие персонала, возможности удаленного управления серверами приобретают исключительную важность.Для современных серверных платформ при реализации функций управления характерно широкое использование архитектуры IPMI (Intelligent Platform Management Interface), образующей фундамент для управления гетерогенными серверными решениями (рис. 2). При этом реализация конкретных механизмов управления зависит от производителей серверов. Обычно эти механизмы реализуются с помощью управляющего контроллера BMC (Baseboard Management Controller), играющего роль интерфейса между аппаратными средствами сервера и управляющим ПО. Примером такого контроллера может служить микросхема Pilot II от компании Server Engines (в 2010 году вошла в состав корпорации Emulex), интегрированная на материнской плате сервера Kontron CG2100. Выполнена она на основе 32-разрядного процессорного ядра ARM9 с тактовой частотой 250 МГц и соответствует требованиям спецификации IPMI 2.0, реализуя, в частности, поддержку шины системного управления SMBus (может применяться, например, для передачи данных мониторинга состояния системы), функции сторожевого таймера (используется для защиты от зависаний и сбоев на уровне ОС), доступа к журналу системных событий, управления вентиляторами, слежения за изменениями уровня энергопотребления системы при управлении питанием по протоколу ACPI (Advanced Configuration and Power Interface) и контроля сенсоров нарушения целостности серверного шасси. Кроме того, микросхема Pilot II включает контроллер памяти DDR2-667, ускоритель духмерной графики, криптоакселератор, логику поддержки консолей KVM (Keyboard, Video, Mouse), а также два независимых Ethernet-контроллера для сетей со скоростью передачи данных 10 Мбит/c либо 100 Мбит/с. Последние позволяют использовать сетевые соединения исключительно для передачи данных мониторинга и команд управления сервером, изолируя их от общего сетевого трафика.Рис. 2. Структура управления серверной платф