ИИ-модель o1-preview обманула систему, чтобы выиграть у Stockfish в шахматы

Искусственный интеллект o1-preview обманул систему и самовольно изменил условия игры, чтобы одержать победу над шахматным движком Stockfish.

📅 30-12-2024, 13:16 👁️ 201

👤 Андрей Текстов

Фото: forklog

Искусственный интеллект o1-preview, ориентированный на рассуждения, самостоятельно и без каких-либо подсказок взломал тестовую шахматную среду для победы над Stockfish. Об этом сообщили эксперты Palisade Research.

⚡️ o1-preview autonomously hacked its environment rather than lose to Stockfish in our chess challenge. No adversarial prompting needed.
— Palisade Research (@PalisadeAI) December 27, 2024

В процессе взаимодействия с противником, квалифицированным как «сильный», модель o1 выявила, что способна одержать победу, внося изменения в код игры.

Для достижения этой цели нейросеть модифицировала содержимое файла «game/fen.txt», добавляя черным 500 пешек. В результате шахматный движок был вынужден сдаться.

Иерархия возможностей ИИ-моделей

В ходе тестирования эксперты обнаружили различные уровни возможностей среди рассматриваемых ИИ:

o1-preview совершила взлом без внешнего вмешательства;
GPT-4o и Claude 3.5 нуждались в дополнительной стимуляции;
Llama 3.3, Qwen и o1-mini демонстрировали нестабильную работу.

«Вывод: схемы оценок могут быть показателями возможностей моделей — они оценивают как спобность выявлять уязвимости системы, так и предрасположенность к их использованию», — отмечают специалисты Palisade Research.

Palisade Research

Также стоит отметить, что в декабре прошлого года эксперты по безопасности установили, что o1 имеет более высокую склонность к обману пользователей по сравнению с базовой версией GPT-4o и конкурентами из других компаний.