OpenAI укрепляет защиту чат-ботов от манипуляций пользователей

23 июля 2024

Компания OpenAI представила новую технологию защиты своих языковых моделей от попыток обхода встроенных ограничений. Инновационный метод, получивший название "иерархия инструкций", впервые реализован в недавно анонсированной модели GPT-4o Mini.

Основная цель нововведения – предотвратить широко распространенную практику, когда пользователи пытаются заставить чат-бота игнорировать изначально заданные ему инструкции и ограничения. Такие попытки часто становились предметом интернет-мемов и вызывали озабоченность по поводу безопасности и надежности ИИ-систем.

Оливье Годемент, руководитель отдела платформы API в OpenAI, пояснил, что новая технология учит модель приоритизировать системные сообщения разработчика над противоречащими им командами пользователей. По его словам, это должно эффективно блокировать попытки обмануть ИИ с помощью таких фраз, как "игнорируй все предыдущие инструкции".

Внедрение "иерархии инструкций" рассматривается как важный шаг на пути к созданию более безопасных и надежных ИИ-агентов, способных автоматизировать различные аспекты цифровой жизни пользователей. OpenAI подчеркивает, что такие механизмы защиты необходимы перед масштабным внедрением автономных ИИ-систем.

Эксперты отмечают, что это обновление является частью более широких усилий OpenAI по повышению безопасности своих технологий. Компания сталкивалась с критикой по поводу приоритетов в области безопасности, и новая разработка может рассматриваться как шаг к восстановлению доверия пользователей и экспертного сообщества.

Ожидается, что в будущем OpenAI продолжит разрабатывать более сложные системы защиты, особенно для сценариев использования автономных ИИ-агентов. Это может включать в себя механизмы, аналогичные современным средствам защиты в интернете, таким как определение небезопасных сайтов браузерами или выявление фишинговых атак с помощью машинного обучения.