Китайские компании нашли выход из ситуации с санкциями на ИИ-чипы

5 июля 2024

С начала мая ряд ведущих китайских компаний, разрабатывающих крупные языковые модели (LLM), объявили о снижении цен на свои услуги. Среди них – Aliyun, Baidu, KU Xiaofei, Tencent Cloud и ByteDance. Некоторые крупные игроки даже перешли на "бесплатный режим" для привлечения пользователей и расширения доли рынка.

Шэнь Цзю, исполнительный вице-президент Baidu и президент Baidu Intelligent Cloud Business Group, пояснил причины появления бесплатной модели Wenxin. По его словам, это стало возможным благодаря гетерогенной платформе управления вычислениями ИИ Baike от Baidu и концепции "Единое облако, множество ядер".

Из-за американских санкций на экспорт передовых ИИ-чипов китайские компании не могут получить доступ к последнему поколению графических процессоров Nvidia, которые доступны европейским, американским, тайваньским и южнокорейским конкурентам. Дефицит высокопроизводительных GPU на китайском рынке, вероятно, сохранится в долгосрочной перспективе.

В ответ на эти ограничения Baidu разработала технологию "Единое облако, множество ядер". Эта технология позволяет платформе Baike работать с различными ИИ-чипами, как американскими, так и китайскими, включая продукцию Nvidia, собственные чипы Kunlun от Baidu, Ascend 910B от Huawei, DCU от Hygon и решения от Intel.

Baidu AI Cloud подчеркивает, что основой ИИ являются вычислительные мощности, которые делятся на две категории: для обучения и для вывода. На данном этапе спрос на вычислительные мощности для обучения очень высок, но из-за геополитических факторов общее количество GPU для обучения LLM на китайском рынке не может расти беспрепятственно.

Хотя существующие кластеры ИИ-ускорителей остаются основным источником вычислительной мощности для обучения LLM в Китае, различные типы отечественных ИИ-чипов начали производиться в больших масштабах. В результате в китайских дата-центрах наблюдается феномен "сосуществования множества чипов".

Проблема заключается в том, что для базового обучения LLM требуются все более крупные кластеры ИИ-ускорителей – от 1000 до 10000 карт. Однако большинство GPU-кластеров в китайских вычислительных центрах насчитывают лишь от десятков до сотен серверов, что недостаточно для удовлетворения будущего спроса на обучение больших моделей.

С 2024 года китайские эксперты и технические специалисты сосредоточились на концепции "гибридных многоядерных вычислений" для обеспечения более высокой производительности при низкой стоимости.

Baidu разработала супер-кластер, объединяющий GPU NVIDIA, собственные ядра Kunlun и чипы Ascend, что позволило увеличить вычислительную мощность для обучения LLM.

"Многоядерная гибридизация" подразумевает сочетание чипов с различными архитектурами и функциональностью для создания гибридной вычислительной системы. Распределение задач между различными GPU ускоряет обучение LLM, а такой гибридный кластер оказывается дешевле, чем использование исключительно высокопроизводительных чипов Nvidia серий A100/A800/H100/H800.

Однако создание эффективно работающего гибридного кластера – сложная задача, учитывая различия в архитектуре и возможностях разных типов ИИ-чипов. Тем не менее, Baidu успешно разработала такое решение и сделала его доступным для внешнего использования в своем публичном облаке.