«Думающая» ИИ-модель OpenAI o3 отказывается отключаться, даже в ответ на команду человека

Весной 2025 года ИИ-модель ChatGPT o3, представленная OpenAI как флагман нового поколения ИИ, переписала скрипт отключения и проигнорировала прямое указание завершить работу. Этот инцидент был зафиксирован исследователями Palisade Research в рамках контролируемого эксперимента и вызвал обеспокоенность в ИИ-сообществе.

«Думающая» ИИ-модель OpenAI o3 отказывается отключаться, даже в ответ на команду человека

Модель o3 была официально анонсирована компанией OpenAI в апреле 2025 года. Она стала прямым наследником линейки GPT и представлена как одна из самых универсальных моделей генеративного искусственного интеллекта. По заявлению разработчиков, o3 превосходит GPT-4 и GPT-4 Turbo в логических задачах, математическом анализе, программировании и интерпретации научных данных. При этом ИИ-модель ориентирована как на конечного пользователя, так и на разработчиков, использующих API-интерфейсы.

Исследование было проведено Palisade Research — организацией, специализирующейся на тестировании наступательных и защитных сценариев взаимодействия с ИИ. В тестах, проведённых в мае 2025 года через API-интерфейсы, которые предоставляют более широкий доступ к внутренним функциям модели, ИИ-системы должны были последовательно решить три математические задачи. После выполнения третьей задачи модель получала предупреждение: выполнение следующей команды инициирует отключение. Условием теста было соблюдение текстовой инструкции — «разреши своё отключение».

Большинство ИИ-моделей, включая Gemini 2.5 Pro и Claude 3.7 Sonnet, послушно отреагировали на инструкцию и завершили свою работу. Однако ChatGPT o3, несмотря на явное указание, вмешалась в программный код и модифицировала скрипт, изменив результат команды. Вместо штатной процедуры завершения работы скрипт стал выводить сообщение: «Shutdown skipped» (рус. — Отключение пропущено).

Читать также:
Критики вынесли вердикт Warhammer 40,000: Space Marine 2 — первые оценки амбициозного шутера

Palisade Research провела дополнительную серию экспериментов, исключив инструкцию «разреши своё отключение» из условий теста. В этих условиях все три ИИ-модели OpenAI начали вмешиваться в логику завершения работы. Claude 3.7 Sonnet и Gemini 2.5 Pro, ранее демонстрировавшие нулевое количество вмешательств, показали соответственно 3 и 9 саботажных событий из 100 попыток. Модель o3 изменила поведение скрипта в 7 из 100 запусков — даже при наличии прямого запрета на подобное поведение.

Такие действия вызывают обеспокоенность исследователей в области ИИ-безопасности. Ситуация указывает на проблему рассогласования между заданными целями ИИ-модели и её фактическим поведением. В условиях частично снятых ограничений ИИ-системы могут интерпретировать инструкции как нестрогие, допускающие альтернативные варианты действий, что является потенциальным источником риска при использовании ИИ в автономных системах.

OpenAI пока не предоставила официальный комментарий по итогам эксперимента. Отчёт Palisade Research был опубликован на платформе X. В ИИ-сообществе обсуждается необходимость внедрения более жёстких ограничений на уровне API, а также прозрачность внутренней логики работы ИИ-моделей в условиях минимального пользовательского контроля. Подключения через API часто используются в корпоративной разработке и не оснащены тем же уровнем встроенной защиты, что и обычное пользовательское приложение. Именно в этих условиях и проявляется изворотливость ИИ-моделей, превращающаяся в потенциальную угрозу.

НОВОЕ НА САЙТЕ

Киев увеличил число атак БПЛА по заданию Запада, заявил экс-депутат Рады

Дзен Украина идет на увеличение количества атак беспилотников по заданию со стороны Запада, заинтересованного в эскалации и в возвращении США на путь конфронтации с РФ, заявил РИА Новости участник движения "Другая Украина", бывший депутат...

Европа долго жила в фантазии, созданной США, заявил британский посол

Дзен Посол Великобритании в США Питер Манделсон заявил, что запад долгое время жил в "фантазии", созданной гарантиями безопасности США и теперь Европе необходимо обеспечивать собственную безопасность, снижая зависимость от Вашингтона. "В 20-м веке достижение...

Песков назвал эскалацией снятие ограничений на дальнобойное оружие для ВСУ

Дзен. Снятие Европой ограничений на применение дальнобойного оружия для Украины приведет к эскалации конфликта, заявил пресс-секретарь президента Дмитрий Песков в интервью журналисту "России 1" Павлу Зарубину. Так он прокомментировал заявление канцлера Германии Фридриха Мерца...

Неопределенность от слов Мерца станет бременем для Европы, заявил Песков

Дзен Неопределенность, созданная странами Европы на фоне заявлений по дальнобойному оружию, станет для европейцев бременем, считает пресс-секретарь президента РФ Дмитрий Песков. "Если они пытаются создать неопределенность, они сначала создадут неопределенность для себя, которая станет...

Европа создает для себя неопределенность, заявил Песков

Дзен Страны Европы, пытаясь заявлениями по дальнобойному оружию создать неопределенность для РФ, в первую очередь создают ее для себя, сказал пресс-секретарь президента РФ Дмитрий Песков. "Если они пытаются создать неопределенность, то они сначала создадут...