Большие языковые ИИ-модели не могут справиться с подсчётом букв в слове «клубника» на английском

Несмотря на впечатляющие возможности больших языковых моделей (LLM), таких как GPT-4o и Claude, в написании эссе и решении уравнений за считанные секунды, они всё ещё несовершенны. Последний пример, ставший вирусным мемом, демонстрирует, что эти, казалось бы, всезнающие ИИ, не могут правильно посчитать количество букв «r» в английском слове «strawberry» (клубника).

Большие языковые ИИ-модели не могут справиться с подсчётом букв в слове «клубника» на английском

Проблема кроется в архитектуре LLM, которая основана на трансформерах. Они разбивают текст на токены, которые могут быть полными словами, слогами или буквами, в зависимости от модели. «LLM основаны на этой архитектуре трансформеров, которая, по сути, не читает текст. Когда вы вводите запрос, он преобразуется в кодировку», — объясняет Мэтью Гуздиал (Matthew Guzdial), исследователь искусственного интеллекта и доцент Университета Альберты, в интервью TechCrunch. То есть, когда модель видит артикль «the», у неё есть только одно кодирование значения «the», но она ничего не знает о каждой из этих трёх букв по отдельности.

Трансформеры не могут эффективно обрабатывать и выводить фактический текст. Вместо этого текст преобразуется в числовые представления, которые затем контекстуализируются, чтобы помочь ИИ создать логичный ответ. Другими словами, ИИ может знать, что токены «straw» и «berry» составляют «strawberry», но не понимает порядок букв в этом слове и не может посчитать их количество. Если задать ChatGPT вопрос, «сколько раз встречается буква R в слове strawberry», бот выдаст ответ «дважды».

«Сложно определить, что именно должно считаться словом для языковой модели, и даже если бы мы собрали экспертов, чтобы согласовать идеальный словарь токенов, модели, вероятно, всё равно считали бы полезным разбивать слова на ещё более мелкие части, — объясняет Шеридан Фойхт (Sheridan Feucht), аспирант Северо-восточного университета (Массачусетс, США), изучающий интерпретируемость LLM. — Я думаю, что идеального токенизатора не существует из-за этой нечёткости». Фойхт считает, что лучше позволить моделям напрямую анализировать символы без навязывания токенизации, однако отмечает, что сейчас это просто невыполнимо для трансформеров в вычислительном плане.

Читать также:
Монокоптер из Сингапура установил рекорд длительности полёта на крохах энергии

Всё становится ещё более сложным, когда LLM изучает несколько языков. Например, некоторые методы токенизации могут предполагать, что пробел в предложении всегда предшествует новому слову, но многие языки, такие как китайский, японский, тайский, лаосский, корейский, кхмерский и другие, не используют пробелы для разделения слов. Разработчик из Google DeepMind Йенни Джун (Yennie Jun) обнаружил в исследовании 2023 года, что некоторым языкам требуется в 10 раз больше токенов, чем английскому, чтобы передать то же значение.

В то время как в интернете распространяются мемы о том, что многие модели ИИ не могут правильно написать или посчитать количество «r» в английском слове strawberry, компания OpenAI работает над новым ИИ-продуктом под кодовым названием Strawberry, который, как предполагается, окажется ещё более умелым в рассуждениях и сможет решать кроссворды The New York Times, которые требуют творческого мышления, а также решать сверхсложные математические уравнения.

НОВОЕ НА САЙТЕ

«Открыть ворота»: грандиозная кампания «Империи бессмертных» скоро станет доступна владельцам Total War: Warhammer и Total War: Warhammer II

Вышедшая в 2023 году масштабная свободная кампания «Империи бессмертных» (Immortal Empires) пока доступна владельцам лишь фэнтезийной стратегии Total War: Warhammer III, но скоро это изменится. Hollow Knight: Silksong...

После 10 месяцев работы на конвейере BMW у человекоподобных роботов Figure 02 начали отваливаться руки

Компания Figure AI завершила почти годичные испытания человекоподобных роботов Figure 02 на заводе BMW в Спартанбурге (Южная Каролина, США). Роботы трудились с понедельника по пятницу в 10-часовых сменах, едва не потеряв руки к концу...

Windows 1.0 вышла ровно 40 лет назад — ей хватало 256 Кбайт ОЗУ и одной дискеты

Сорок лет назад, 20 ноября 1985 года, Microsoft выпустила Windows 1.0, работавшую на компьютерах с процессором 8088, 256 Кбайт оперативной памяти и двумя дисководами. Она использовала мозаичные окна, меню и управление мышью и являлась...

Первая за 10 лет новая Carmageddon оказалась роглайтом — тизер-трейлер Carmageddon: Rogue Shift

Франшиза жестоких гоночных экшенов Carmageddon от Stainless Games не знала новых релизов последние десять лет, однако, похоже, скучать без новых игр фанатам серии осталось недолго. Пять главных фишек...

Clair Obscur: Expedition 33 повторила рекорд Baldur’s Gate 3 и не оставила шанса конкурентам — итоги Golden Joystick Awards 2025

Сезон крупных видеоигровых премий образца 2025 года открывает Golden Joystick Awards 2025. Результаты прошедшей вечером 20 ноября уже 43-й в своём роде церемонии — в данном материале. Лучший...