ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft

Microsoft Research и Salesforce проанализировали более 200 000 диалогов с передовыми моделями ИИ, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Результаты показали, что все они часто «теряются в разговоре», если он разбивается на естественные многоходовые диалоги с обменом репликами. Для собеседника чат-ботов это выглядит, как постепенное «оглупление» модели, сопровождающееся галлюцинациями и откровенно неверными ответами.

ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft

Обзор игрового 4K IPS-монитора Gigabyte M27UP: разнообразия ради

Обзор игрового QD-OLED WQHD-монитора Gigabyte AORUS FO27Q5P: на пределе возможностей

Итоги 2025 года: почему память стала роскошью и что будет дальше

Обзор ноутбука TECNO MEGABOOK S14 (S14MM): OLED с HDR как новая норма

Обзор телевизора Sber SDX-43U4169

Итоги 2025-го: ИИ-лихорадка, рыночные войны, конец эпохи Windows 10 и ещё 12 главных событий года

Учёные утверждают, что ИИ-модели, такие как GPT-4.1 и Gemini 2.5 Pro, достигают 90 % точных ответов при обработке отдельных запросов. Однако их производительность падает примерно до 65 % во время более длительных диалогов с обменом многочисленными репликами. Причём модели склонны использовать свой первоначальный ответ в качестве основы для ответа на последующие вопросы, даже если он был неверным.

Читать также:
Аналитики раскрыли продажи Escape from Tarkov в Steam за первые две недели с релиза

Исследователи обнаружили ещё одно любопытное явление — раздувание ответов. Ответы и реакции моделей становились на 20‑300 % длиннее при участии в многоходовых диалогах. Более длинные ответы на запросы приводили к большему количеству предположений и иллюзий, которые затем использовались моделями в качестве постоянного контекста в разговоре.

Хотя такие модели, как o3 от OpenAI и DeepSeek R1, обладают дополнительными «токенами мышления», они не смогли выбраться из этой странной ситуации. Исследователи подчеркнули, что надёжность LLM снизилась на 112 %. Это объясняется склонностью моделей к преждевременной генерации — они пытаются предложить ответ на запрос, не дочитав его до конца.

Становится очевидным, что ИИ ещё не достиг своего пика, сталкиваясь с такими критическими проблемами, как низкая надёжность при участии в многоходовых диалогах. Тем не менее, отношение пользователей к ИИ-сервисам быстро меняется, особенно с появлением таких инструментов, как «ИИ-обзоры Google». Следует отметить, что отказ от традиционных поисковых систем в пользу инструментов на основе ИИ — это большой риск, поскольку генерируемая информация может оказаться недостоверной.

Некоторое время назад Microsoft обвинила пользователей в неправильном использовании ИИ, заявив о низком уровне инженерных навыков при разработке подсказок. Возможно, именно глупые вопросы и плохие подсказки от «кожаных мешков» не дают моделям искусственного интеллекта проявить себя во всей красе?

НОВОЕ НА САЙТЕ

Rockstar пожалела, что добавила стелс в GTA: San Andreas

Вышедший в 2004 году криминальный боевик с открытым миром Grand Theft Auto: San Andreas стал для Rockstar Games большим успехом, однако это не значит, что у команды не осталось сожалений, связанных с игрой. ...

Следующая ИИ-модель OpenAI разрабатывается другой ИИ-моделью — сверхинтеллект близок как никогда

Следующая ИИ-модель OpenAI разрабатывается другой ИИ-моделью, что свидетельствует о том, что ИИ может совсем скоро достигнуть уровня искусственного сверхинтеллекта. Об этом в интервью CNBC заявил генеральный директор SoftBank Масаёси Сон (Masayoshi Son). Его комментарий...

Анонсирована gen Atlas — новая приключенческая игра с открытым миром от создателя The Last Guardian и Shadow of the Colossus

Студия известного геймдизайнера Фумито Уэда (Fumito Ueda), приложившего руку к The Last Guardian и Shadow of the Colossus, представила дебютный трейлер своего нового проекта под названием gen Atlas. ...

«С возвращением, Mass Effect»: 20 минут геймплея ролевого боевика Exodus впечатлили фанатов

Как и было обещано, в ночь на 7 июня основанная ветеранами BioWare студия Archetype Entertainment устроила расширенную презентацию игрового процесса своего научно-фантастического ролевого экшена Exodus в духе Mass Effect. ...

ChatGPT получил крупнейшее обновление и превратится в «суперприложение» в преддверии IPO OpenAI

Компания OpenAI в преддверии IPO, сроки которого пока не оговорены, планирует провести крупнейшее с момента запуска обновление ИИ-чат-бота ChatGPT. Цель — превратить чат-бот в «суперприложение», которое объединяет инструменты программирования и агентов ИИ, добавив функции,...