Адриан де Винтер (Adrian de Wynter), научный сотрудник Microsoft и исследователь из Йоркского университета (Великобритания), опубликовал работу, посвящённую способности большой языковой модели GPT-4 играть в классический шутер Doom.
В оригинальном виде большая языковая модель OpenAI GPT-4 не поддерживает запуск Doom из-за ограничения на объём входных данных. Поэтому исследователь воспользовался её мультомодальным вариантом GPT-4V, который оказался способным управлять игровым процессом без дополнительного обучения. Для этого исследователь разработал два дополнительных компонента для подключения Doom к нейросети: первый делает снимки экрана в игре и транслирует их GPT-4V, а второй запрашивает у искусственного интеллекта команды на управление игровым процессом и преобразует их в непосредственные команды для игрового контроллера. В результате ИИ стреляет из игрового оружия, сражается с врагами, открывает двери и повторно проходит уровни, улучшая собственные результаты.
Запустив игру, автор исследования быстро обнаружил главную слабость GPT-4V — как только монстры в игре выходят за пределы экрана, ИИ о них «забывает». «Например, для модели было бы естественно увидеть на экране монстра и начать стрелять в него, пока не попадёт или не убьёт его. Это ИИ, написанный для работы на оборудовании 1993 года, и глубокого дерева принятия решений у него нет. Так что монстры стреляет и начинает бегать по комнате. И в чём тут проблема? Ну, во-первых, монстры уходит из поля зрения. Что хуже, он в какой-то момент жахнет. Так что нужно добить его, верно? Это же Doom — жахни ты или жахнут тебя. Оказывается, GPT-4 забывает о монстрах и просто идёт дальше. Причём есть подсказка, что делать модели, если она получает урон, но не видит врага. И, более того, сворачивает с дороги, застревает в углу и умирает. Пару раз она оборачивалась, но за 50–60 прохождений я видел такое <..> скажем, два раза», — рассказал автор исследования.
GPT-4 показала, что не умеет адекватно рассуждать. Когда её попросили объяснить свои действия, которые были в основном правильными в том контексте, объяснения ИИ были слабыми и часто содержали галлюцинации — неверную информацию. Адриан де Винтер счёл примечательной способность GPT-4 играть в Doom без дополнительного обучения, но этот же факт вызвал у него обеспокоенность в этическом аспекте: учёный относительно просто написал код, позволяющий ИИ стрелять, и тот поражает цели, не особо размышляя о последствиях. На практике ИИ вполне сможет тестировать игры, не осознавая, что он делает. Исследователь призвал людей задуматься о возможностях развёртывания подобных моделей на практике и опасности их недобросовестного применения.