OpenAI представила GPT-4o для повышения естественности взаимодействия с ИИ

22 мая 2024

OpenAI анонсировала GPT-4o (o – омниканальная), единую модель для обработки аудио, изображений и текста в реальном времени. Это шаг к более естественному человеко-машинному взаимодействию.

В отличие от предыдущих решений, использовавших отдельные модели для разных типов данных, GPT-4o представляет собой универсальную систему. Она принимает любые комбинации текста, аудио и изображений на входе и генерирует соответствующие текстовые, аудио и визуальные результаты (кроме видео).

Техдиректор OpenAI Мира Мурати пояснила, что применение специализированных моделей для различных модальностей вызывало существенные задержки, нарушавшие погружение пользователя. Использование единой GPT-4o позволило устранить эти задержки, приблизив взаимодействие с ChatGPT к естественному человеческому диалогу.

GPT-4o демонстрирует среднее время отклика 232-320 мс на аудиовходы – сопоставимое с реакциями человека в разговоре. При работе с английским текстом и программным кодом производительность модели эквивалентна GPT-4 Turbo с существенными улучшениями для других языков. GPT-4o также значительно быстрее и на 50% экономичнее в API по сравнению с GPT-4 Turbo, особенно эффективна в понимании аудио и визуальных данных.

Разработчики уже могут использовать GPT-4o для создания масштабируемых ИИ-приложений. Помимо более высокой скорости и низкой стоимости в сравнении с GPT-4 Turbo, GPT-4o обладает в 5 раз большим лимитом API-запросов. OpenAI планирует предоставить модель даже пользователям бесплатного тарифа.

Релиз GPT-4o призван перекроить быстро эволюционирующую сферу искусственного интеллекта, где GPT-4 до настоящего времени считалась эталонной моделью. Однако GPT-4o демонстрирует более глубокое контекстное понимание благодаря мультимодальному подходу. В ходе демонстрации модель точно идентифицировала студийную обстановку и корректно интерпретировала намерение диктора записать видео.

Между тем, по сообщению MarketWatch, GPT-4o потенциально способна составить конкуренцию виртуальным ассистентам вроде Siri от Apple. Ранее Bloomberg писал, что Apple близка к сделке по интеграции ChatGPT в мобильную ОС iOS 18. Ожидается, что в июне на конференции WWDC компания анонсирует ряд AI-новинок, в том числе возможные улучшения или замену Siri на ChatGPT.

По оценке аналитиков Bloomberg Intelligence, партнерство с OpenAI может существенно усилить ИИ-возможности Apple, особенно в сравнении с лидирующей в интеграции ИИ в смартфоны Samsung.

Аналитик Роберт Ли также отметил, что GPT-4o наглядно демонстрирует растущий технологический разрыв между американскими и китайскими AI-разработками, который, по прогнозам, будет только расширяться из-за экспортных ограничений на процессоры Nvidia. Китайский AI-сектор, по мнению эксперта, ожидает длительный период убытков ввиду жесткой внутренней конкуренции и низких барьеров входа на рынок. Наилучшие шансы выжить имеют лишь техгиганты Alibaba, Tencent и Huawei.