Интеллектуальные способности ChatGPT деградировали из-за попыток его улучшить, выяснили учёные

Учёные сообщили об очередной проблеме, которая может преследовать чат-боты, основанные на платформах искусственного интеллекта — этот феномен называется «дрейфом» (drift), и он отражает деградацию интеллектуальных способностей системы.

Интеллектуальные способности ChatGPT деградировали из-за попыток его улучшить, выяснили учёные

Дебютировавший в прошлом году ChatGPT произвёл настоящую революцию в области искусственного интеллекта и даже косвенно способствовал разразившейся в Голливуде забастовке сценаристов. Но опубликованное учёными Стэнфордского университета и Калифорнийского университета в Беркли (США) исследование указывает на новую проблему ИИ: ChatGPT стал хуже выполнять некоторые элементарные математические операции. Этот феномен известен как «дрейф»: попытка усовершенствовать одну часть сложной модели ИИ приводит к ухудшению работы других её областей. И это, отмечают исследователи, значительно усложняет непрерывное совершенствование нейросетей.

Учёные пришли к такому выводу, когда протестировали две версии GPT: доступную для всех бесплатно 3.5; и 4.0, работать с которой можно только при наличии платной подписки. Чат-боту предложили элементарную задачу: определить, является ли определённое число простым. Простым, напомним, называется натуральное число, которое делится только на единицу и на себя. Если число достаточно большое, то человек не может оценить, является ли оно простым, в уме. А вот компьютер может справиться с этой задачей методом грубой силы: проверить его делимость на 2, 3, 5 и т. д. Основу теста составила выборка из 1000 чисел. В марте доступный по премиум-подписке GPT-4 давал правильные ответы в 84 % случаев, и это уже сомнительный результат для компьютера, но к июню доля правильных ответов рухнула до 51 %.

В общем случае GPT-4 продемонстрировал деградацию в шести задачах из восьми. GPT-3.5, напротив, по шести задачам продемонстрировал прогресс, но в большинстве остался слабее своего продвинутого собрата. Повышение числа неправильных ответов отметили многие пользователи чат-ботов, и, согласно выводам учёных Стэнфорда и Беркли, это не субъективные ощущения — деградация подтверждается эмпирическими данными. «Когда мы выпускаем новые версии моделей, наш приоритет — сделать новые модели умнее по всем направлениям. Мы прилагаем усилия, чтобы новые версии совершенствовались во всём спектре задач. При этом наша методология оценки несовершенна, и мы её постоянно улучшаем», — прокомментировали научную работу в OpenAI.

Читать также:
Разработчики Path of Exile 2 подтвердили стоимость игры в раннем доступе — фанаты в восторге

О тотальной деградации моделей ИИ речи не идёт: в ряде тестов менее точный в целом GPT-3.5 показал прогресс, а GPT-4 свои результаты ухудшил. Помимо математических задач, исследователи предлагали чат-ботам ответить на 1500 вопросов. И если в марте чат-бот на базе GPT-4 отвечал на 98 % вопросов, то в июне давал ответы только на 23 %, и зачастую они оказывались слишком короткими: ИИ заявлял, что вопрос был субъективным, и собственного мнения у него нет.

Учёные Стэнфорда и Беркли говорят, что в своём исследовании они не призывают отказаться от технологий ИИ — это скорее пристальное наблюдение за их динамикой. Человек привык воспринимать знания как решение ряда задач, где каждая последующая основывается на предыдущей. В случае с ИИ схема оказывается другой: одному шагу вперёд соответствует шаг назад или в другом непредсказуемом направлении. ИИ-сервисы, вероятно, продолжат развиваться, но их путешествие будет проходить не по прямой линии.

НОВОЕ НА САЙТЕ

NYT: новый раунд переговоров Ирана и США может пройти в ближайшие недели

Дзен Четвертый раунд переговоров между Ираном и США, скорее всего, пройдет в ближайшие две недели в Европе, сообщает газета New York Times со ссылкой на высокопоставленного американского чиновника и информированный источник. Третий раунд непрямых...

Эксперт рассказал, как освобождение Курской области повлияет на Трампа

Дзен Завершение освобождения Курской области еще больше укрепит американского президента Дональда Трампа в мысли, что Украину "пора списывать", Киев к переговорам подтолкнет разгром ВСУ, сообщил РИА Новости информационный аналитик, сооснователь проекта "Ватфор" Сергей Полетаев....

Эксперты назвали освобождение Курской области ударом по моральному духу ВСУ

Дзен Освобождение Вооруженными силами РФ Курской области является нокаутом и серьезным ударом по моральному духу украинских военных, заявили РИА Новости эксперты из Алжира и Ирака. В субботу начальник Генштаба ВС РФ Валерий Герасимов доложил...

Лавров исключил переговоры о целостности территории России

Дзен Россия не ведет переговоры о целостности своей территории, президент США Дональд Трамп это понимает, заявил глава МИД РФ Сергей Лавров в интервью телеканалу CBS, комментируя недавние слова американского лидера по вопросу Крыма."Россия не...

Россия не получала от США предложений по ЗАЭС, заявил Лавров

Дзен Россия не получала предложений о переходе Запорожской АЭС под совместное управление США и Украины, заявил глава МИД РФ Сергей Лавров в интервью телеканалу CBS. "Нет, мы не получали такого предложения, а если и...