В дата-центре CERN собрано более 100 петабайт информации
Представители Европейской организации по ядерным исследованиям (Conseil Europeen pour la Recherche Nucleaire; CERN) на прошлой неделе сообщили, что в центре обработки данных «Tier Zero», который обслуживает крупнейшую в мире лабораторию физики высоких энергий, собрано более 100 петабайт информации. Напиливались эти данные на протяжение последних 20 лет. Эксперименты с участием Большого адронного коллайдера (Large Hadron Collider; LHC; БАК), позволили сгенерировать около 75 петабайт полезной информации всего за три года.
Сто петабайт (или 100 млн. гигабайт) это солидный объем данных. Показатель примерно эквивалентен видеофайлу с качества Full HD, чья продолжительность составляет 700 лет. Хранение подобного массива единиц и нулей – нетривиальная с инженерной точки зрения задача. В CERN большая часть данных (около 88 петабайт) заархивированы на стримеры (ленточные накопители) с помощью системы хранения CERN Advanced Storage (CASTOR). Система CASTOR принимает примерно по 2 петабайт информации в месяц.
Остальные данные (13 петабайт) хранятся на вычислительном кластере с объединенной дисковой системой EOS. Данная система оптимизирована для одновременной работы с множеством пользователей, которым необходимо быстро получать доступ к информации для последующего ее анализа.
«У нас есть восемь роботизированных ленточных библиотек. Элементы этих стримерных библиотек рассредоточены в помещениях двух зданий. Одна ленточная библиотека может содержать до 14000 ленточных картриджей (кассетная магнитная лента)», говорит Канцио Мелиа из ИТ-отдела CERN. «В настоящее время мы используем около 52000 ленточных картриджей емкостью от одного терабайта до 5.5 Тб. В случае системы EOS данные хранятся на более чем 17000 отдельных жестких дисках, которые подключенные к 800 дисковым серверам (совместно используемый сетевой дисковый накопитель)».
Как уже упоминалось выше, не вся информация была получена после экспериментов на Большом адронном коллайдере. «В дата-центре CERN накапливается информация, полученная в ходе многих других экспериментов по физике высоких энергий (прошлых и текущих), которые проводятся с помощью ускорителей заряженных частиц и ядерных реакторов, а также данные по
экспериментам с магнитным альфа-спектрометром (Alpha Magnetic Spectrometer; AMS)», говорит Дирк Дьюелман из ИТ-отдела.
«При работе с ленточными картриджами и жесткими дисками крайне важно обеспечить эффективность механизма хранения данных и минимизировать время доступа к информации», подчеркивает Дьюелман, «Это работа подразумевает выявление узких мест в системе и понимание того, как именно пользователи хотят получить доступ к данным».
Руководство CERN сотрудничает с тремя ведущими производителями ленточных систем хранения данных: SpectraLogic, StorageTek и IBM. «Мы предпочитаем работать с несколькими поставщиками оборудования подобного рода «, отметил заместитель директора ИТ-отдела, Дэвид Фостер.
Специалисты регулярно проверяют кассетные магнитные ленты, чтобы убедиться в том, что они находятся в хорошем состоянии и доступны пользователям. Чтобы добиться оптимизации области памяти, полный архив данных регулярно переносится на новые ленты высокой емкости. Данные на дисковых системах автоматически реплицируются, и после отказа отдельного жесткого диска он заменяется на новый. Масштабируемое пространство имен позволяет обеспечить быстрый одновременный доступ к миллионам отдельных файлов.
ЦОД «Tier Zero» вычислительного центра CERN находится в непосредственной близости от Большого адронного коллайдера. На БАК размещены шесть детекторов, фильтрующих в режиме реального времени данные по результатам столкновений частиц. Информация с них поступает на серверы. Оттуда представляющие интерес результаты отправляются в дата-центр CERN, который был построен в 70-х годах прошлого века.
В настоящее время он является центральным элементом архитектуры GRID Большого адронного коллайдера, которая контролирует свыше 160 вычислительных кластеров по всему миру. Данные и задачи из «Tier Zero» в Женеве передаются на десяток дата-центров уровня надежности Tier 1 и на более чем 150 объектов класса Tier 3 (для группового анализа). Каждый день отправляется около 1.5 млн. задач. Кроме того, ученые со всего мира запрашивают доступ к старым данным для проверки новых теорий.
Большое количество энергии, необходимое для экспериментов с помощью БАК, оставляет всего 3.4 МВт для нужд «Tier Zero». В течение последних месяцев дата-центр работал на полную мощность, но вскоре часть вычислительной нагрузки с него снимет ЦОД мощностью 2.5 МВт в Будапеште (Венгрия).
Напомним, что БАК в середине текущего месяца был остановлен на профилактическое обслуживание, которое займет почти два года. На протяжении этого времени дата-центр «Tier Zero» также будет загружен: ученые будут анализировать данные, полученные в течение первых трех лет работы ускорителя, а операторы ЦОД — готовится к более широкому потоку информации, который будет идти от обновленного Большого адронного коллайдера после возобновления экспериментов. Расширение и модернизация ЦОД «Tier Zero», а также использование удаленного дата-центра в Венгрии будет способствовать дальнейшему увеличению вычислительной мощности объекта.