DeepSeek: Китайский искусственный интеллект бросает вызов США

Ужесточая экспортный контроль США старались замедлить развитие ИИ в Китае, но вместо этого способствовали резкому развитию инновации. Не имея возможности полагаться исключительно на новейшее оборудование, такие компании, как DeepSeek из Ханчжоу, были вынуждены искать креативные решения, чтобы делать больше с меньшими затратами.
Более того, Китай следует стратегии открытого исходного кода и становится одним из крупнейших поставщиков мощных моделей ИИ с полностью открытым исходным кодом в мире.
В этом месяце DeepSeek выпустила свою модель R1, используя передовые методы - обучение с подкреплением, для создания модели, которая не только является одной из самых высокопроизводительных в мире, но и имеет полностью открытый исходный код, что делает ее доступной для изучения, изменения и развития для любого человека в мире.
DeepSeek-R1 демонстрирует, что Китай не выбыл из гонки ИИ а, по сути, может еще доминировать в глобальной разработке ИИ с помощью своей удивительной стратегии открытого исходного кода. Открывая исходный код конкурентоспособных моделей, китайские компании могут увеличить свое глобальное влияние и потенциально формировать международные стандарты и практики ИИ. Проекты с открытым исходным кодом также привлекают глобальные таланты и ресурсы для содействия развитию китайского ИИ. Стратегия также позволяет Китаю расширить свое технологическое присутствие в развивающихся странах, потенциально встраивая свои системы ИИ — и, как следствие, свои ценности и нормы — в глобальную цифровую инфраструктуру.
Производительность DeepSeek-R1 сопоставима с лучшими моделями рассуждений OpenAI в ряде задач, включая математику, кодирование и сложные рассуждения. Например, в математическом тесте AIME 2024 DeepSeek-R1 набрал 79,8% по сравнению с 79,2% OpenAI-o1. В тесте MATH-500 DeepSeek-R1 набрал 97,3% по сравнению с 96,4% o1. В задачах кодирования DeepSeek-R1 достиг 96,3-го процентиля на Codeforces, в то время как o1 достиг 96,6-го процентиля — хотя важно отметить, что результаты тестов могут быть несовершенными и не должны интерпретироваться слишком превратно.
Но самое замечательное, что DeepSeek смог достичь этого в основном за счет инноваций, а не полагаясь на новейшие компьютерные чипы.
Они представили MLA (многоголовое скрытое внимание), которое сокращает использование памяти до всего лишь 5-13% от обычно используемой архитектуры MHA (многоголовое внимание). MHA — это метод, широко используемый в ИИ для одновременной обработки нескольких потоков информации, но он требует большого объема памяти.
Чтобы сделать свою модель еще более эффективной, DeepSeek создала структуру DeepSeekMoESparse. «MoE» означает Mixture-of-Experts, что означает, что модель использует только небольшое подмножество своих компонентов (или «экспертов») для каждой задачи, а не запускает всю систему. «Разреженная» часть относится к тому, как активируются только необходимые эксперты, что экономит вычислительную мощность и снижает затраты.
Архитектура DeepSeek-R1 имеет 671 миллиард параметров, но только 37 миллиардов активируются во время работы, демонстрируя замечательную вычислительную эффективность. Компания опубликовала всеобъемлющий технический отчет на GitHub, предлагая прозрачность архитектуры модели и процесса обучения. Сопутствующий открытый исходный код включает архитектуру модели, конвейер обучения и связанные компоненты, что позволяет исследователям полностью понять и воспроизвести ее дизайн.
Эти инновации позволяют модели DeepSeek быть одновременно мощной и значительно более доступной, чем у конкурентов. Это уже вызвало ценовую войну в Китае, которая, вероятно, перекинется на весь остальной мир.
Стоимость API DeepSeek значительно дешевле OpenAI-o1. Такое резкое снижение затрат может потенциально демократизировать доступ к передовым возможностям ИИ, позволяя небольшим организациям и отдельным исследователям использовать мощные инструменты ИИ, которые ранее были недоступны.
DeepSeek также стала пионером в дистилляции возможностей своей большой модели в более мелкие, более эффективные модели. Эти дистиллированные модели, варьирующиеся от 1,5 млрд до 70 млрд параметров, также имеют открытый исходный код, предоставляя исследовательскому сообществу мощные, эффективные инструменты для дальнейших инноваций.
Предоставляя свои модели в свободный доступ для коммерческого использования, дистилляции и модификации, DeepSeek создает добрую волю в мировом сообществе ИИ и потенциально устанавливает новые стандарты прозрачности в разработке ИИ.
DeepSeek была основана 40-летним Ляном Вэньфэном, одним из ведущих инвесторов Китая. Его хедж-фонд High-Flyer финансирует исследования компании в области искусственного интеллекта.
В редком интервью в Китае основатель DeepSeek Лян предупредил OpenAI: «Перед лицом прорывных технологий рвы, созданные закрытым исходным кодом, являются временными. Даже закрытый исходный код OpenAI не может помешать другим догнать его».
DeepSeek является частью растущей тенденции китайских компаний, вносящих вклад в глобальное движение открытого исходного кода искусственного интеллекта, противостоя представлениям о том, что технологический сектор Китая в первую очередь сосредоточен на имитации, а не на инновациях.
В сентябре китайская Alibaba представила более 100 новых моделей открытого исходного кода искусственного интеллекта в рамках семейства Qwen 2.5, которое поддерживает более 29 языков. У китайского поискового гиганта Baidu есть серия Ernie, у Zhipu AI есть серия GLM, а у MiniMax — семейство MiniMax-01, все они предлагают конкурентоспособную производительность при значительно более низких затратах по сравнению с ведущими моделями США.
Поскольку Китай продолжает инвестировать и продвигать разработку ИИ с открытым исходным кодом, одновременно преодолевая проблемы, связанные с экспортным контролем, в мировом технологическом сообществе, вероятно, произойдут дальнейшие изменения в моделях международного технологического сотрудничества . Успех этой стратегии может позиционировать Китай как ведущую силу в формировании будущего ИИ, что будет иметь далеко идущие последствия для технологического прогресса, экономической конкурентоспособности и геополитического влияния.