Cerebras представляет чипы третьего поколения с удвоенной производительностью

30 апреля 2024

Компания Cerebras представила третье поколение чипа с производительностью в 125 PFLOPS. Это огромный показатель, наглядная демонстрация которого – скорость обучения языковой модели Llama2-70B. Платформа с 4 новыми чипами справится всего за сутки!

Производительность движка третьего поколения, WSE3, куда выше, чем у WSE2, при этом, производственные расходы вполне сопоставимы, равно как и мощность, составляющая 15 киловатт.

WSE2 уже успел зарекомендовать себя исключительно с положительной стороны, используется как база для суперкомпьютеров типа Condor Galaxy 2, однако, в новой версии, Condor Galaxy 3, будет применен уже WSE3. Чип использует 42 гигабайта оперативной памяти формата SRAM, пропускная способность которой доходит до 21 петабайта в секунду. Допустимо добавление вспомогательных модулей, что может быть актуально при обучении наиболее совершенных ИИ-систем, превосходящих даже Gemini и GPT-4.

Программный стек

В Cerebras реализована поддержка Python 2.0 и всех типов моделей, от мелких, до масштабных мультимодальных, в том числе LLM. Структура обучения максимально краткая. Например, использование стандартных графических процессоров в обучении 175-разрядной версии Megatron предполагает ввод десятков тысяч строчек Python-кода, тогда как с Cerebras можно ограничиться 565. Эта задача вполне выполнима одним специалистом за сутки.

Condor Galaxy 3

Первым суперкомпьютером, который будет создан на основе WES3, станет Condor Galaxy 3. В нем планируется использовать 64 системы, что даст производительность на уровне 8 эксафлопс. Третье поколение Condor Galaxy будет использоваться наряду с предыдущими, что позволит оптимизировать и совершенствовать работу суперкомпьютеров, выявлять новые закономерности и алгоритмы, способные оказаться востребованными в следующих версиях.

В качестве устройств вывода планируется использовать Qualcomm CloudAI 100, высокопроизводительные нейропроцессоры, исключительно с положительной стороны зарекомендовавшие себя в суперкомпьютерах и других подобных системах.

Использование Qualcomm CloudAI 100 объясняется не только их высокой производительностью, но и универсальностью, поддержкой сразу нескольких технологий обучения, среди которых поиск нейронной архитектуры, спекулятивное декодирование и другие. Грамотное комбинирование технологий позволит подобрать схему, оптимально подходящую для конкретной обучаемой модели, исключить чрезмерные расходы энергии, добиться высочайшей скорости вывода. Специалисты полагают, что суперкомпьютер, укомплектованный чипами Qualcomm и Cerebras, способен в десятки раз ускорить обучение ИИ-систем, в сравнении с существующими.