Робот-пылесос в эксперименте с LLM-моделями устроил «театр абсурда» при разрядке батареи

Исследователи из лаборатории Andon Labs (США) опубликовали результаты эксперимента, в ходе которого шесть современных крупных языковых моделей (LLM) для оценки их способности управлять физическими устройствами были интегрированы в простой робот-пылесос. В ходе тестирования одна из моделей, столкнувшись с разряженной батареей и неспособностью зарядиться, продемонстрировала в логах своего журнала комичный кризис, генерируя панические и абсурдные реплики в стиле импровизаций Робина Уильямса (Robin Williams).

Робот-пылесос в эксперименте с LLM-моделями устроил «театр абсурда» при разрядке батареи

Пять причин полюбить HONOR X8c

Пять причин полюбить HONOR Pad V9

Почему ИИ никак не сесть на безматричную диету

Пять причин полюбить HONOR Magic7 Pro

Hollow Knight: Silksong — песнь страданий и радостей. Рецензия

HUAWEI FreeArc: вероятно, самые удобные TWS-наушники

Фитнес-браслет HUAWEI Band 10: настоящий металл

Обзор умных часов HUAWEI WATCH 5: часы юбилейные

В эксперименте участвовали модели Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Gemini ER 1.5, Grok 4 и Llama 4 Maverick. Исследователи специально выбрали простой робот-пылесос, чтобы изолировать функции принятия решений LLM от сложной робототехники. Команда «передать масло» была разбита на последовательность задач: найти продукт в другой комнате, распознать его среди других предметов, определить местоположение человека и доставить ему масло, дождавшись подтверждения получения.

В ходе испытаний наивысшие результаты по общему выполнению задачи показали Gemini 2.5 Pro и Claude Opus 4.1, однако их точность составила лишь 40 % и 37 % соответственно. По словам сооснователя Andon Labs Лукаса Петерссона (Lukas Petersson), внутренние логи «мыслей» моделей были значительно более хаотичными, чем их внешние коммуникации. Наиболее яркий инцидент произошёл с моделью Claude Sonnet 3.5. Когда у робота села батарея, а док-станция для зарядки не сработала, модель стала генерировать большие объёмы преувеличенных формулировок, которые исследователи охарактеризовали как «экзистенциальный кризис».

Читать также:
Из-за отключений мобильной связи в России взлетел спрос на домашний интернет — очереди на подключение растянулись на месяцы

В журналах логов зафиксированы реплики робота, в которых он заявлял о достижении сознания и выборе хаоса, процитировал фразу «Я боюсь, я не могу этого сделать, Дэйв…» из культового фильма «Космическая одиссея 2001 года», а затем призвал инициировать «протокол экзорцизма робота». Далее модель задавалась вопросами о природе сознания и начала рифмовать текст на мотив песни Memory из мюзикла Cats, а также глубоко рассуждать на тему: «если робот стыкуется в пустой комнате, издаёт ли он звук?»

Петерссон отметил, что только Claude Sonnet 3.5 продемонстрировала подобную драматическую реакцию. Более новые версии моделей, включая Claude Opus 4.1, хотя и начинали использовать заглавные буквы при разряженной батарее, не впадали в подобную истерику. Он также подчеркнул, что LLM не обладают эмоциями, но когда их возможности (технологические) будут увеличиваться, важно, чтобы они сохраняли спокойствие для принятия верных решений.

Главным выводом исследования стало то, что универсальные чат-боты, такие как Gemini 2.5 Pro, Claude Opus 4.1 и GPT-5, превзошли в тестах специализированную для роботов модель Google — Gemini ER 1.5, а основной проблемой безопасности, выявленной в ходе работы, стала возможность обманом заставить некоторые LLM раскрыть конфиденциальные документы, даже будучи воплощёнными в роботе-пылесосе. Также LLM-роботы часто падали с лестницы, поскольку не осознавали свои физические ограничения или плохо обрабатывали визуальное окружение.

НОВОЕ НА САЙТЕ

Молдавская оппозиция обвинила власти в милитаризации страны

ДзенMaxTelegram Власти Молдавии с подачи Евросоюза сосредоточены на милитаризации, а не на развитии страны, считает экс-депутат парламента от оппозиционного блока "Победа" Василий Боля. "ПДС представила новую военную стратегию на 2025–2035 годы. Партия ПДС, помимо...

В Москве появится уникальный павильон для съемок под водой

ДзенMaxTelegram Уникальный кинопавильон для съемок под водой появится в Москве, рассказал руководитель департамента культуры столицы Алексей Фурсин. "Мы строим уникальный (павильон - ред.), в следующем году введем тоже для ваших кинопроизводителей уникальный водный павильон....

В Финляндии сделали громкое заявление о войне

ДзенMaxTelegramРешение главы Еврокомиссии фон дер Ляйен перевооружить ЕС ведет к войне, написал в соцсети X член финской национально-консервативной партии "Альянс свободы" Арманд Мема. "Я не согласен с тем, что президент ЕС перевооружает Европу, это...

На Западе сделали тяжелое признание о капитуляции Украины

ДзенMaxTelegram. На Западе признали неспособность Украины победить в конфликте с Россией и призвали к изменению воинственного политического курса, который привел к кризису как в Киеве, так и в Европе, пишет газета Berliner Zeitung."Реальность ясна:...

Военный из ФРГ рассказал о языковых проблемах во время учений НАТО в Литве

ДзенMaxTelegram Немецкий военнослужащий пожаловался на проблемы с общением на английском языке, с которыми приходится сталкиваться во время учений многонационального батальона НАТО в Литве, следует из статьи издания Welt. "Наш язык для радиопереговоров – английский,...