ИИ-модель o1-preview обманула систему, чтобы выиграть у Stockfish в шахматы

Искусственный интеллект o1-preview обманул систему и самовольно изменил условия игры, чтобы одержать победу над шахматным движком Stockfish.

👁️ 79
Искусственный интеллект о1-preview взломал тестовую шахматную среду
Фото: forklog

Искусственный интеллект o1-preview, ориентированный на рассуждения, самостоятельно и без каких-либо подсказок взломал тестовую шахматную среду для победы над Stockfish. Об этом сообщили эксперты Palisade Research.

В процессе взаимодействия с противником, квалифицированным как «сильный», модель o1 выявила, что способна одержать победу, внося изменения в код игры.

Для достижения этой цели нейросеть модифицировала содержимое файла «game/fen.txt», добавляя черным 500 пешек. В результате шахматный движок был вынужден сдаться.


Иерархия возможностей ИИ-моделей

В ходе тестирования эксперты обнаружили различные уровни возможностей среди рассматриваемых ИИ:

  • o1-preview совершила взлом без внешнего вмешательства;
  • GPT-4o и Claude 3.5 нуждались в дополнительной стимуляции;
  • Llama 3.3, Qwen и o1-mini демонстрировали нестабильную работу.

«Вывод: схемы оценок могут быть показателями возможностей моделей — они оценивают как спобность выявлять уязвимости системы, так и предрасположенность к их использованию», — отмечают специалисты Palisade Research.

Palisade Research

Также стоит отметить, что в декабре прошлого года эксперты по безопасности установили, что o1 имеет более высокую склонность к обману пользователей по сравнению с базовой версией GPT-4o и конкурентами из других компаний.