Міністерство енергетики США виявило погане обслуговування екзафлопного суперкомп'ютера Frontier

Міністерство енергетики США виявило погане обслуговування екзафлопного суперкомп'ютера Frontier

Управління генерального інспектора (OIG) Міністерства енергетики США провело перевірку ЦОД Національної лабораторії Ок-Рідж, на базі якої працюють передові суперкомп'ютери, зокрема перша в світі екзафлопна система Frontier. Як повідомляє The Register, результати залишають бажати кращого.

У вересні минулого року в OIG надійшла заява про необхідність перевірки якості обслуговування та калібрування обладнання (насамперед мова про температурні датчики та автоматику систем охолодження) на майданчику лабораторії, розташованому в Теннесі. Лабораторія займається проектами в галузі атомної енергетики та забезпечення національної безпеки. Доповідь за результатами перевірки пов'язана із ЦОД на майданчику Ок-Рідж. В одному з кампусів знаходиться центр Oak Ridge Leadership Computing Facility (OLCF), керуючий суперкомп'ютером Frontier.

Інспекція проводилася з січня по вересень 2023 року і підтвердила дані заяви, що надійшла регулятору. Згідно з доповіддю OIG, у заяві повідомлялося, що програма калібрування не відповідала нормам, а запобіжні клапани (PRV) у ЦОД або зовсім не обслуговувалися, або обслуговувалися несумлінно. Збій роботи клапанів міг призвести до підвищення тиску вище за допустимі межі, що потенційно могло завдати шкоди як обладнанню, так і персоналу. Як повідомляють в OIG, оскільки інфраструктура не обслуговувалась належним чином, це могло обмежити доступність обчислювальних ресурсів та поставити під загрозу виконання цілей місії лабораторії.

Управління обчислювальними потужностями лабораторії виконує некомерційна організація UT-Battelle, створена у 2000 році виключно для контролю над майданчиком Ок-Рідж на користь Міністерства енергетики у співпраці з Університетом Теннессі та некомерційним Меморіальним інститутом Баттеля.

В OIG заявляють, що програма обслуговування UT-Battelle не відповідала необхідним вимогам. У самій UT-Battelle повідомили регулятору, що регулярне калібрування не потрібне, оскільки кожен елемент обладнання калібрується при встановленні, а пізніше системи ЦОД постійно контролюються субпідрядником за допомогою ПЗ, що повідомляє про інциденти. В OIG підкреслюють, що хоча така практика дозволена, все ПЗ має контролюватись за допомогою спеціальної програми забезпечення якості, яка описує, яким саме чином дотримуються вимог безпеки.

Проте лабораторія не змогла надати таких документів — у UT-Battelle фактично не знають, чи ПЗ надає коректні дані. Крім того, UT-Battelle не перевіряла вчасно всі повітряні клапани, а майже половина клапанів для води та теплоносія не була протестована та/або обстежена відповідно до інструкцій. У деяких випадках тести проводили відповідно до рекомендацій виробника, а не прийнятих у лабораторії правил. UT-Battelle заявляє, що процедура перевірки наразі переглядається.

У звіті OIG підкреслюється, що у 2020 році вже проводилася аналогічна перевірка, яка виявила буквально ті самі проблеми. Хоча в деяких аспектах становище покращилося, потрібні подальші заходи для впорядкування. При цьому в UT-Battelle повністю визнали правомірність рекомендацій та погодилися розробити план забезпечення якості для моніторингового ПЗ та забезпечити роботу та обслуговування PRV-клапанів відповідно до актуальних процедур та вимог.