ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft

Microsoft Research и Salesforce проанализировали более 200 000 диалогов с передовыми моделями ИИ, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Результаты показали, что все они часто «теряются в разговоре», если он разбивается на естественные многоходовые диалоги с обменом репликами. Для собеседника чат-ботов это выглядит, как постепенное «оглупление» модели, сопровождающееся галлюцинациями и откровенно неверными ответами.

ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft

Обзор игрового 4K IPS-монитора Gigabyte M27UP: разнообразия ради

Обзор игрового QD-OLED WQHD-монитора Gigabyte AORUS FO27Q5P: на пределе возможностей

Итоги 2025 года: почему память стала роскошью и что будет дальше

Обзор ноутбука TECNO MEGABOOK S14 (S14MM): OLED с HDR как новая норма

Обзор телевизора Sber SDX-43U4169

Итоги 2025-го: ИИ-лихорадка, рыночные войны, конец эпохи Windows 10 и ещё 12 главных событий года

Учёные утверждают, что ИИ-модели, такие как GPT-4.1 и Gemini 2.5 Pro, достигают 90 % точных ответов при обработке отдельных запросов. Однако их производительность падает примерно до 65 % во время более длительных диалогов с обменом многочисленными репликами. Причём модели склонны использовать свой первоначальный ответ в качестве основы для ответа на последующие вопросы, даже если он был неверным.

Читать также:
Intel представила Tunnel Falls — свой первый квантовый процессор с кремниевыми кубитами

Исследователи обнаружили ещё одно любопытное явление — раздувание ответов. Ответы и реакции моделей становились на 20‑300 % длиннее при участии в многоходовых диалогах. Более длинные ответы на запросы приводили к большему количеству предположений и иллюзий, которые затем использовались моделями в качестве постоянного контекста в разговоре.

Хотя такие модели, как o3 от OpenAI и DeepSeek R1, обладают дополнительными «токенами мышления», они не смогли выбраться из этой странной ситуации. Исследователи подчеркнули, что надёжность LLM снизилась на 112 %. Это объясняется склонностью моделей к преждевременной генерации — они пытаются предложить ответ на запрос, не дочитав его до конца.

Становится очевидным, что ИИ ещё не достиг своего пика, сталкиваясь с такими критическими проблемами, как низкая надёжность при участии в многоходовых диалогах. Тем не менее, отношение пользователей к ИИ-сервисам быстро меняется, особенно с появлением таких инструментов, как «ИИ-обзоры Google». Следует отметить, что отказ от традиционных поисковых систем в пользу инструментов на основе ИИ — это большой риск, поскольку генерируемая информация может оказаться недостоверной.

Некоторое время назад Microsoft обвинила пользователей в неправильном использовании ИИ, заявив о низком уровне инженерных навыков при разработке подсказок. Возможно, именно глупые вопросы и плохие подсказки от «кожаных мешков» не дают моделям искусственного интеллекта проявить себя во всей красе?

НОВОЕ НА САЙТЕ

Samsung снова стала лидером на мировом рынке телевизоров — двадцатый год подряд

Samsung Electronics сохранила за собой звание технологического лидера мирового рынка телевизоров благодаря развитию премиального сегмента. По данным исследовательского агентства Omdia, опубликованным на сайте Samsung, доля выручки производителя в глобальном масштабе составила 29,1 % по...

Apple представит ещё одно обновление MacBook Pro в 2026 году

Компания Apple представила на этой неделе обновлённые ноутбуки MacBook Pro 14 и 16, оснащённые недавно анонсированными процессорами M5 Pro и M5 Max и экранами Liquid Retina XDR. Новинки уже доступны для предзаказа и поступят...

К 2040 году Япония намерена контролировать до 30 % мирового рынка чипов для роботов и прочих ИИ-устройств

В восьмидесятые годы прошлого века Япония была лидером полупроводникового рынка, но в силу разного рода причин к настоящему времени растратила прежний потенциал, хотя и старается его восстановить. Новое правительство страны ставит перед ней цель...

YMTC представила PCIe 5.0 SSD с собственной памятью — PC550 со скоростью до 10,5 Гбайт/с

Китайская компания Yangtze Memory Technologies пополнила свою линейку потребительских SSD моделью PC550. Это первые накопители вендора формата M.2 с интерфейсом PCIe 5.0, которые позиционируются для использования в компьютерах для работы с искусственным интеллектом и...

Китайские власти предупредили, что обострение конфликта вокруг Nexperia грозит мировым полупроводниковым кризисом

Пламя исчезнувшего было из новостных лент конфликта нидерландской штаб-квартиры Nexperia с китайским производственным подразделением превратилось в тлеющие угли, но китайские чиновники предупреждают, что оно может разгореться с новой силой и создать очередные проблемы всей...