ИИ расширяет возможности роботов

19 июня 2024

Летом 2023 года компания Wayve из северного Лондона провела успешные испытания своего беспилотного автомобиля. Транспортное средство уверенно справлялось с круговыми перекрестками, поворотами и пешеходными переходами. Автомобиль аккуратно объезжал автобусы, следил за велосипедистами и смог избежать фотосессию, проходившую на обочине дороги, перекрытую конусами. В течение часовой поездки водителю пришлось вмешаться только два раза из-за неаккуратного вождения других автомобилистов.

В Wayve для автономного вождения используется модель глубокого обучения на основе большого массива видеоданных. Но за последние месяцы «мозг» их автомобилей претерпел серьезную модернизацию. Новейшая модель вождения Lingo-2 обучалась не только на видео, но и на текстовых данных. По сути, в нее интегрирован чат-бот наподобие ChatGPT. Теперь автомобиль может отвечать на вопросы о своих действиях, объяснять логику поведения и принимать новые команды.

Как рассказывает сооснователь Wayve Алекс Кендалл, водитель может спросить у модели об ограничении скорости и о том, какие признаки окружающей среды (знаки, разметка) она использует для определения этого. В другой ситуации он попросил автомобиль описать, как изменится его поведение при дожде. Возможность напрямую взаимодействовать с моделью помогает в отладке и позволяет быстро давать новые инструкции, например, ехать по другой стороне дороги, как в других странах.

Беспилотный автомобиль, по сути, представляет собой робота. И продукт Wayve – лишь один из примеров того, как последние достижения в области ИИ, такие как большие языковые модели для чат-ботов, применяются в робототехнике. Новый класс ИИ-моделей обучается на основе изображений, текстов и данных о внутреннем устройстве робота, формируя так называемую модель «видение-язык-действие» (VLAM). Ключевой момент в том, что такие модели учатся связывать эти разнородные сведения, что позволяет роботу описывать окружение и выполнять задачи без явного обучения этому. По сути, VLAM наделяет роботов здравым смыслом.

Кроме того, в отличие от обычных чат-ботов, VLAM реже «галлюцинирует» – то есть генерирует ложную информацию, поскольку ее восприятие основано на реальных наблюдениях окружающего мира. «Связывание слова “автомобиль” с изображением машины резко снижает риск галлюцинаций», – поясняет доктор Кендалл.

По мнению экспертов, внедрение искусственного интеллекта делает роботов более «разумными» и менее подверженными ошибкам по сравнению с виртуальными чат-ботами, поскольку модели VLAM базируются на данных о реальном физическом мире. После быстрого прогресса в развитии программных систем ИИ в последние годы ожидается столь же стремительный рост возможностей роботов благодаря внедрению «воплощенного» искусственного интеллекта в их аппаратную часть.