Жидкостное охлаждение ИИ-серверов: риски и ответственность
В эпоху стремительного развития искусственного интеллекта (ИИ) жидкостное охлаждение серверов становится не просто инновацией, а насущной необходимостью. Однако недавние сообщения об утечках во время тестирования систем охлаждения для высокопроизводительных серверов ИИ поднимают серьезные вопросы о надежности технологии и распределении ответственности в случае аварий.
Жидкостное охлаждение, долгое время остававшееся нишевым решением, выходит на передний план благодаря новому поколению серверных графических процессоров для ИИ, тепловыделение которых достигает нескольких тысяч ватт. Традиционные системы воздушного охлаждения уже не справляются с такими тепловыми нагрузками, что делает жидкостное охлаждение единственным жизнеспособным вариантом для современных ИИ-серверов.
Однако недавние инциденты с утечками в компонентах жидкостного охлаждения, уже прошедших сертификацию для использования в серверах Nvidia серии GB, вызвали новую волну беспокойства в отрасли. Примечательно, что проблемные компоненты, по имеющимся данным, были произведены не тайваньскими производителями.
Эксперты в области тепловых решений отмечают, что среди основных компонентов систем жидкостного охлаждения – холодильных пластин, коллекторов, блоков распределения охлаждения (CDU) и быстроразъемных соединений (QDC) – наиболее уязвимым звеном являются именно QDC. В настоящее время производство этих критически важных элементов сосредоточено преимущественно в руках европейских и американских поставщиков.
Лин Ю-Шенг, председатель совета директоров Auras Technology, компании-производителя тепловых решений, подчеркивает, что проблема ответственности действительно становится ключевой при обсуждении жидкостного охлаждения. Тем не менее, он отмечает, что этот фактор не может полностью остановить поставки. Auras, полностью сфокусировавшись на разработке систем жидкостного охлаждения, гарантирует многоступенчатое тестирование всех своих продуктов перед отправкой клиентам.
Шен Чинг-Ханг, председатель совета директоров Asia Vital Components (AVC), акцентирует внимание на том, что качество в системах жидкостного охлаждения имеет первостепенное значение. По его словам, клиенты выбирают поставщиков, основываясь на доверии, поскольку никто не может позволить себе высокие расходы, связанные с утечками в дорогостоящих серверных шкафах для ИИ.
В отрасли сложилась практика, при которой клиенты обычно указывают конкретных поставщиков компонентов и модулей жидкостного охлаждения, в то время как производители систем, такие как Foxconn, Quanta, Wistron, Wiwynn и Inventec, занимаются фактическими поставками. В случае утечек именно производители систем обычно несут ответственность за компенсацию. Несмотря на то, что многие компании сотрудничают с производителями систем, широкого внедрения технологии пока не произошло.
Учитывая, что стоимость каждого серверного шкафа для ИИ может достигать 100 миллионов тайваньских долларов, не говоря уже о ценности хранящихся в нем данных, вопрос ответственности выходит на первый план, затмевая проблемы стоимости компонентов или требований к установке. В отсутствие реальных прецедентов компенсации после утечек ни производители чипов, ни производители систем или тепловых решений не хотят брать на себя полный риск.
Поскольку серверы Nvidia серии GB только начинают входить в стадию массового производства, многие вопросы прояснятся лишь после широкомасштабного развертывания этих систем. В конечном итоге поставщикам и клиентам придется найти компромисс между растущими требованиями к вычислительной мощности и обеспечением надежности заказов, разработав четкие условия распределения ответственности.