Суперкомпьютер «Говорун» – активно развивающаяся платформа для научных вычислений
Новости, 22 августа 2023
По итогам прошлого года Первую премию ОИЯИ 2022 года в конкурсе научно-технических прикладных работ получил коллектив авторов цикла работ «Гиперконвергентный суперкомпьютер «Говорун» для реализации научной программы ОИЯИ»: Дмитрий Беляков, Алексей Воронцов, Егор Дружинин, Максим Зуев, Владимир Кореньков, Юрий Мигаль, Андрей Мошкин, Дмитрий Подгайный, Татьяна Стриж, Оксана Стрельцова. О проделанной работе рассказал начальник сектора гетерогенных вычислений и квантовой информатики ЛИТ ОИЯИ Дмитрий Подгайный.
Суперкомпьютер имени Н. Н. Говоруна в Лаборатории информационных технологий ОИЯИ – мощная вычислительная машина, которая позволяет проводить одновременно множество расчетов и моделировать различные физические процессы; прежде всего, он используется в качестве симулятора столкновений тяжелых ионов в эксперименте MPD ускорительного комплекса NICA. Также на суперкомпьютере развернут полигон для квантовых вычислений; на нем ведутся теоретические исследования экзотических и сверхтяжелых ядер, обрабатываются экспериментальные данные Лаборатории радиационной биологии и выполняются другие прикладные задачи. Для СК «Говорун» впервые в мире применены технологии гибкой архитектуры и прямого жидкостного охлаждения, внедрена иерархическая система обработки и хранения данных, а благодаря ежегодным модернизациям круг задач, которые он решает, постоянно расширяется.
Суперкомпьютер был создан в Лаборатории информационных технологий ОИЯИ в 2018 году на основе опыта, накопленного при эксплуатации гетерогенного кластера HybriLIT, входящего в состав Многофункционального информационно-вычислительного комплекса ЛИТ. Создание этой уникальной машины является важным технологическим достижением и имеет большое значение для реализации научной программы и международного сотрудничества ОИЯИ.
К 2018 году в Институте назрела насущная необходимость в собственном суперкомпьютере. Постоянный рост числа пользователей и расширение круга задач потребовали разработать и внедрить новые технологии. На тот момент ученые ОИЯИ пользовались возможностями кластера HybriLIT, а также ресурсами суперкомпьютеров партнерских организаций.
До создания суперкомпьютера, который теперь вошел в состав HybriLIT, вычислительный кластер показал свою востребованность при решении задач квантовой хромодинамики на решетке, радиационной биологии, в прикладных исследованиях и др. [2] Однако, например, расчеты КХД на решетке – одни из самых ресурсоемких исследований Лаборатории теоретической физики ОИЯИ, и мощностей для их проведения ранее не хватало. На «Говоруне» же были получены уникальные результаты по этому направлению.
Сейчас на СК «Говорун» делаются расчеты по 25 темам Проблемно-тематического плана ОИЯИ, в которых участвуют все лаборатории Института; в работах задействованы 323 человека, из них 262 – сотрудники ОИЯИ, остальные – представители стран-участниц. Наращивание количества вычислительных ресурсов на СК «Говорун» планируется ежегодно, поскольку пользователей и задач, решаемых с его помощью, становится все больше.
«Помимо КХД, с точки зрения вычислительных мощностей «Говорун» становится одним из мировых лидеров в моделировании динамики электронных оболочек сверхтяжелых ядер в Лаборатории ядерных реакций. Наш суперкомпьютер является одним из основных вычислительных ресурсов для этой задачи в мировом масштабе», — рассказал Дмитрий Подгайный. Также теоретические исследования экзотических ядер ведутся на СК «Говорун» сотрудниками Лаборатории нейтронной физики. Результаты, полученные с использованием ресурсов СК «Говорун» с момента ввода его в эксплуатацию с июля 2018 по сентябрь 2022 года, отражены в 204 научных публикациях, две из них вышли в авторитетном журнале Nature Physics.
На СК «Говорун» не только проводятся расчеты – он используется как научно-исследовательский полигон для выработки программно-аппаратных и IT-решений. Ресурсы СК «Говорун» были включены в единую гетерогенную среду на основе платформы DIRAC для проекта NICA, что позволило реализовать программу сеансов массового моделирования данных эксперимента MPD. При этом некоторые задачи по моделированию на MPD возможно выполнить только на СК «Говорун».
Облака организаций стран-участниц ОИЯИ, интегрированные в распределенную информационно-вычислительную среду на основе платформы DIRAC
В 2022 году генерация данных методом Монте-Карло и реконструкции событий MPD стала первой совместной задачей, решаемой в рамках Национальной исследовательской компьютерной сети (НИКС). В инфраструктуру сети, помимо СК «Говорун», вошли суперкомпьютеры Межведомственного суперкомпьютерного центра РАН и Санкт-Петербургского политехнического университета Петра Великого. Первый эксперимент по использованию объединенной инфраструктуры был успешно завершен, в нем было запущено 3000 задач. В результате было сгенерировано и реконструировано три миллиона событий. Дмитрий Подгайный подчеркнул, что «Говорун» по-прежнему будет использоваться только для задач ОИЯИ, и присоединение партнерских компьютерных центров рассматривается как расширение возможностей суперкомпьютера ОИЯИ.
На «Говоруне» была качественно повышена эффективность моделирования динамики столкновений тяжелых ионов, проведены расчеты радиационной безопасности экспериментальных установок ОИЯИ и повышена эффективность решения прикладных задач [12]. Технологии, внедренные на СК «Говорун», позволили развить на нем экосистему ML/DL/HPC, предоставляющую возможности не только для задач в области машинного и глубокого обучения, но и для удобной организации проведения расчетов и анализа результатов. Примерами таких решений служат разработанная информационно-вычислительная система для совместного проекта с ЛТФ по изучению теоретических моделей джозефсоновских переходов [12] и информационная система для совместного проекта с ЛРБ для обработки, анализа и визуализации данных радиобиологических исследований [13]. В этом проекте ЛРБ и ЛИТ принимают активное участие представители научных организаций Республики Сербии, ассоциированного члена ОИЯИ.
Суперкомпьютер «Говорун» претерпел три этапа модернизации, в продолжение которых дорабатывалась его архитектура и вводились новые компоненты. Модернизация проводилась, в первую очередь, в интересах коллаборации MPD NICA. «Сейчас мы имеем завершенное архитектурное решение, которое в дальнейшем будем масштабировать: увеличивать вычислительные мощности, систему хранения и обработки данных», — сообщил Дмитрий Подгайный.
им. Н. Н. Говоруна
На сегодня «Говорун» представляет собой высокопроизводительную масштабируемую систему. В текущую конфигурацию входят вычислительные модули с компонентами GPU (графический процессор) и CPU (центральный процессор), а также иерархическая система обработки и хранения данных [3]. Суммарная пиковая производительность составляет 1,7 Пфлопс для расчетов с двойной точностью (3,4 Пфлопс для расчетов с одинарной точностью) и скоростью чтения/записи 300 Гб/с для иерархической системы обработки и хранения данных.
«При последнем расширении мы добавили новый компонент – 32 гиперконвергентных узла с большим объемом оперативной памяти, что позволило не просто увеличить производительность СК «Говорун», но и решать задачи, которые раньше для него были недоступны, а также внедрить новейшую технологию хранения DAOS», — прокомментировал ученый. Стало возможным решать задачи, требующие большого объема оперативной памяти на одно вычислительное ядро, в первую очередь, для мегасайенс-проекта NICA. Новые узлы используются и в симуляторах квантовых вычислений, а также в совместном проекте ЛЯР и ЛИТ по исследованию электронных оболочек сверхтяжелых элементов.
Технология DAOS (Distributed Asynchronous Object Storage), показавшая свою перспективность для задач глубокого и машинного обучения и работы квантовых симуляторов, необходима для обработки большого объема разнородных данных и используется на СК «Говорун» в качестве слоя т. н. очень горячих данных.
В СК «Говорун» внедрена иерархическая система обработки и хранения данных с программно-определяемой архитектурой. По скорости доступа к информации система разделена на три уровня: очень горячие данные – наиболее востребованные, к которым требуется обеспечить самый быстрый доступ, горячие данные и теплые данные. Каждый уровень может использоваться как самостоятельно, так и вместе с другими. Самый быстрый слой памяти ограничен по объему. Задачи, которые не требуют очень высокой скорости, решаются с использованием среднего слоя. Наконец, есть случаи, когда данные нужно хранить очень долго. Самым холодным хранилищем, к которому подключен СК «Говорун», является ленточный робот, который очень медленно записывает и извлекает информацию, зато позволяет хранить ее на протяжении долгого времени – производитель дает гарантию в течение сорока лет. За высокоскоростную систему обработки и хранения данных СК «Говорун» получил престижную премию Russian DC Awards 2020 в номинации «Лучшее ИТ-решение для центров обработки данных».
При создании СК «Говорун» были впервые в мире применены две технологии.
Для CPU-компоненты суперкомпьютера была выбрана технология прямого жидкостного охлаждения компании ЗАО «РСК Технологии», обладающей рядом инновационных разработок [4, 5]. Благодаря внедрению этих технологий для СК «Говорун» удалось достичь рекордной плотности размещения вычислительных узлов на шкаф: 153 узла против 25 узлов для воздушного охлаждения, – а работа в режиме охлаждения «горячей водой» позволила использовать круглогодичный режим free cooling (24x7x365). Помимо высокой энергоэффективности, такой подход позволил упростить инфраструктуру суперкомпьютерного центра – система охлаждения СК «Говорун» создана с использованием только сухих градирен, охлаждающих жидкость при помощи окружающего воздуха. В итоге на охлаждение расходуется менее 6 % всего потребляемого СК «Говорун» электричества, что является выдающимся результатом для HPC-индустрии. Построенная система является первой в мире системой со 100 % жидкостным охлаждением.
Другой отличительной особенностью СК «Говорун» является технология гиперконвергентной (гибкой) архитектуры для вычислительных узлов, созданная и внедренная также впервые в мире для суперкомпьютеров.
«Суперкомпьютеры, как правило, «заточены» под один тип задач с жесткой архитектурой. Например, прогноз погоды считается с помощью гидродинамических уравнений. СК Росгидромета превосходит все ресурсы, которые есть в ЛИТ, но он решает круглосуточно только одну задачу. Чтобы прогноз был точнее, ресурсов у суперкомпьютера должно быть все больше. При этом, если вы захотите на этой машине посчитать задачи для MPD, у вас не получится либо получится совсем не то, поскольку его вычислительная архитектура не перенастраиваемая», — прокомментировал Дмитрий Подгайный. Он пояснил, что «Говорун» перенастраивается программным образом с очень высокой скоростью под разные типы задач пользователей, то есть нет необходимости физически менять вычислительные узлы.
Гиперконвергентность позволяет «оркестрировать» вычислительные ресурсы и элементы хранения данных и создавать, используя ПО РСК БазИС, вычислительные системы по требованию задач пользователя. Термин «оркестрация» подразумевает программную дезинтеграцию вычислительного узла на отдельные компоненты, такие как вычислительные ядра, элементы хранения данных с последующим их объединением в необходимую конфигурацию. Вычислительные элементы (CPU-ядра и графические ускорители) и элементы хранения данных (SSD-диски) образуют независимые наборы ресурсов – пулы. Благодаря оркестрации пользователь может под свою задачу распределить необходимое число и тип вычислительных узлов, в том числе графических ускорителей, необходимый объем и тип систем хранения данных, а также автоматически настроить программное обеспечение. После завершения задачи вычислительные ядра и элементы хранения возвращаются в пулы и готовы к следующему использованию.
Помимо повышения эффективности решения пользовательских задач разных типов, свойство гиперконвергентности повышает уровень конфиденциальности работы с данными и помогает избежать системных ошибок, возникающих при пересечении ресурсов для различных пользовательских задач.
Список публикаций цикла:
- A. Baginyan, A. Balandin, N. Balashov, A. Dolbilov, A. Gavrish, A. Golunov,
N. Gromova, I. Kashunin, V. Korenkov, N. Kutovskiy, V. Mitsyn, I. Pelevanyuk,
D. Podgainy, O. Streltsova, T. Strizh, V. Trofimov, A. Vorontsov, N. Voytishin, and
M. Zuev: “Current Status of the MICC: an Overview” // CEUR Workshop proceedings, 2021, Vol. 3041, pp. 1-8. - Gh. Adam, M. Bashashin, D. Belyakov, M. Kirakosyan, M. Matveev, D. Podgainy,
T. Sapozhnikova, O. Streltsova, Sh. Torosyan, M. Vala, L. Valova, A. Vorontsov,
T. Zaikina, E. Zemlyanaya, and M. Zuev: “IT-ecosystem of the HybriLIT heterogeneous platform for high- performance computing and training of IT-specialists” // CEUR Workshop proceedings, 2018, Vol. 2267, pp. 638-644. - D.V. Podgainy, D.V. Belaykov, A.V. Nechaevsky, O.I. Streltsova, A.V. Vorontsov, and M.I. Zuev: “IT Solutions for JINR Tasks on the “GOVORUN” Supercomputer” // CEUR Workshop proceedings, 2021, Vol. 3041, pp. 612-618.
- E.A. Druzhinin, A.B. Shmelev, A.A. Moskovsky, V.V. Mironov, A. Semin, “Server Level Liquid Cooling: Do Higher System Temperatures Improve Energy Efficiency?” // Supercomputing frontiers and innovations, 2016, Vol. 3, № 1, pp. 67-73, DOI: 10.14529/jsfi160104
- E. Druzhinin, A. Shmelev, A. Moskovsky, Yu. Migal, V. Mironov, A. Semin, “High temperature coolant demonstrated for a computational cluster” // Proc. of 2016 International Conference on High Performance Computing & Simulation (HPCS), DOI: 10.1109/HPCSim.2016.7568418
- D. Belyakov, A. Nechaevskiy, I. Pelevanuk, D. Podgainy, A. Stadnik, O. Streltsova,
A. Vorontsov, M. Zuev: “Govorun” Supercomputer for JINR Tasks” // CEUR Workshop proceedings, 2020, Vol. 2772, pp. 1-12. - V. Korenkov, A. Dolbilov, V. Mitsyn, I. Kashunin, N. Kutovskiy, D. Podgainy,
O. Streltsova, T. Strizh, V. Trofimov, and P. Zrelov: “The JINR distributed computing environment” // EPJ Web of Conferences, 2019, Vol. 214, p. 03009, DOI: https://doi.org/10.1051/epjconf/201921403009 - В.В. Кореньков «Тенденции и перспективы развития распределенных вычислений и аналитики больших данных для поддержки проектов класса мегасайенс» // Ядерная физика, 2020, том 83, № 6, с. 534-538.
- D.V. Belyakov, A.G. Dolbilov, A.A. Moshkin, I.S. Pelevanyuk, D.V. Podgainy,
O.V. Rogachevsky, O.I. Streltsova, and M.I. Zuev: “Using the “Govorun” Supercomputer for the NICA Megaproject” // CEUR Workshop proceedings, 2018, Vol. 2507, pp. 316-320. - N. Kutovskiy, V. Mitsyn, A. Moshkin, I. Pelevanyuk, D. Podgayny, O. Rogachevsky,
B. Shchinov, V. Trofimov, and A. Tsaregorodtsev: “Integration of Distributed Heterogeneous Computing Resources for the MPD Experiment with DIRAC Interware”// Physics of Particles and Nuclei, 2021, Vol. 52 (4), pp. 835-841, DOI:10.1134/S1063779621040419 - A.A. Moshkin, I.S. Pelevanyuk, D.V. Podgainy, O.V. Rogachevsky, O.I. Streltsova, and M.I. Zuev: “Approaches, services, and monitoring in a distributed heterogeneous computing environment for the MPD experiment” // Russian Supercomputing Days: Proceedings of the International Conference, 2021, pp. 4-11, DOI: https://doi.org/10.29003/m2454.RussianSCDays2021.
- Ю.А. Бутенко, М.И. Зуев, М. Чосич, А.В. Нечаевский, Д.В. Подгайный,
И.Р. Рахмонов, А.В. Стадник, О.И. Стрельцова «Экосистема ML/DL/HPC платформы HybriLIT (ЛИТ ОИЯИ): новые возможности для прикладных исследований», 2022. - I.A. Kolesnikova, A.V. Nechaevskiy, D.V. Podgainy, A.V. Stadnik, A.I. Streltsov, and O.I. Streltsova: “Information System for Radiobiological Studies” // CEUR Workshop proceedings, 2020, Vol. 2743, pp. 1-6.