ИИ-модели не справляются с классическими шутерами, как Doom
Новые исследования показывают, что современные ИИ-модели не способны успешно играть в классические шутеры от первого лица, такие как Doom. Эксперты провели тесты с использованием нейросетей для оценки их игровых навыков.

Несмотря на все достижения в области искусственного интеллекта, современные нейросетевые модели терпят неудачи в игре в классический шутер Doom. К такому заключению пришли эксперты после проведения тестов в рамках нового бенчмарка VideoGameBench.
[media=https://x.com/a1zhang/status/1912873578229346747?ref_src=twsrc%5Etfw]Тестирование направлено на оценку способности нейросетей играть и выигрывать в 20 популярных видеоиграх, при этом они могут использовать лишь информацию, доступную на экране.
«Современные модели VLM сталкиваются с трудностями в видеоиграх из-за высокой задержки вывода. Когда агент делает скриншот и запрашивает VLM о следующих действиях, состояние игры к моменту получения ответа уже значительно изменилось, и указанное действие может стать неактуальным»,
В тестировании использовались классические игры 1990-х годов, отличающиеся простыми визуальными эффектами и разными способами ввода, такими как мышь, клавиатура и игровые контроллеры. Этот подход позволяет исследовать пространственное мышление и "зрение" нейросетей.
Бенчмарк VideoGameBench был разработан ученым и исследователем в области ИИ Алексом Чжаном. В него входят такие игры, как Warcraft II, Age of Empires, Prince of Persia и другие.

Среди протестированных моделей Sonnet 3.7 показала лучшие результаты в Doom, найдя синюю комнату.
Исследователи отметили, что задержка реакции является основной проблемой для шутеров от первого лица. В быстро изменяющейся игровой среде враг может успеть нанести удар раньше, чем игрок сможет реагировать.
В дополнение к трудностям в понимании игрового окружения, модели также не смогли выполнять базовые действия.
«Мы часто наблюдали ситуации, когда агент не понимал, как его действия, такие как движение вправо, будут отображаться на экране. Наиболее распространенной ошибкой среди протестированных моделей оказалась неспособность надежно управлять мышью в играх, таких как Civilization и Warcraft II, где точные и частые движения критично важны»,
Кроме того, модели нередко не понимают игровые механики, когда отсутствуют четкие инструкции по необходимым действиям.
Напоминаем, что в феврале ИИ-стартап Anthropic представил свою «самую интеллектуальную модель» Claude 3.7 Sonnet, способную играть в Pokemon.