OpenAI представила o3 — самый умный ИИ в мире, который на 88 % догнал человека

В последний день акции Shipmas, в рамках которой было обещано в течение 12 дней показывать, анонсировать и рассказывать о новых ИИ-функциях, компания OpenAI представила пару больших языковых моделей нового поколения o3 и o3-mini, обладающих способностью рассуждать.

OpenAI представила o3 — самый умный ИИ в мире, который на 88 % догнал человека

OpenAI отмечает, что речь не идёт о выпуске новых языковых моделей сегодня. Компания пояснила, что обучение этих нейросетей ещё не завершено и окончательный результат их обучения может отличаться от того, о чём она говорит сегодня. В то же время OpenAI принимает заявки исследовательского сообщества на тестирование этих моделей перед их публичным выпуском. Компания ещё не решила, когда это произойдёт.

В сентябре этого года OpenAI запустила думающую ИИ-модель o1 (кодовое название Strawberry). Решение назвать новые модели o3 связано с тем, что таким образом компания решила избежать путаницы (или конфликтов товарных знаков) с британской телекоммуникационной компанией O2.

Термин «рассуждающая модель ИИ» в последнее время стал очень модным в среде разработки технологий искусственного интеллекта и машинного обучения. Однако, по сути, он означает лишь то, что для решения заданного вопроса машина разбивает заданные инструкции на более мелкие задачи. Это в конечном итоге позволяет добиться от неё более точного результата. «Рассуждающие» модели ИИ чаще всего показывают весь процесс решения и то, как ИИ пришёл к тому или иному ответу, а не просто дают окончательный ответ без объяснения.

Как утверждает OpenAI, её новая модель o3 превосходит предыдущие рекорды производительности по всем направлениям. В рамках теста ARC-AGI, который был специально создан для сравнения возможностей искусственного интеллекта с интеллектом человека, модель o3 более чем в три раза превзошла возможности o1, продемонстрировав результат в 88 %.

Читать также:
Microsoft открыла доступ к скандальной ИИ-функции Recall — пользователям разрешили ограничить её «подглядывания»

Новая модель также быстрее предшественника в написании кода (тест SWE-Bench Verified) на 22,8 % и даже превзошла ведущего учёного OpenAI в спортивном программировании.

Модель o3 почти справилась с одним из самых сложных математических тестов, AIME 2024, пропустив в нём лишь один вопрос, а также набрала в бенчмарке GPQA Diamond 87,7 % — значительно больше, чем любой результат человека-эксперта.

В самых сложных математических и логических тестах, которые обычно ставят в тупик любые другие ИИ, o3 решила 25,2 процента задач — результаты других моделей не превышают и двух процентов.

Весомым преимуществом o3, как и o1, является возможность моделей «рассуждать» и эффективно проверять свои же факты, чтобы избегать различного рода ошибок и галлюцинаций. Правда, разработчики из OpenAI заявили, что процесс проверки фактов перед выдачей ответа приводит к небольшой задержке — от нескольких секунд до нескольких минут (зависит от сложности вопроса). Кроме того, задержка связана с тем, что модель определяет, соответствует ли запрос пользователя политике безопасности OpenAI. Компания утверждает, что при тестировании нового алгоритма защиты на o1 она намного лучше следовала правилам безопасности, чем предыдущие модели, включая GPT-4.

И всё же, как отмечают журналисты TechCrunch, основным недостатком «рассуждающих» моделей является то, что для их работы требуется гораздо больше вычислительных мощностей, поэтому в итоге их использование обходится значительно дороже «обычных» решений.

НОВОЕ НА САЙТЕ

Каминные топки: современные решения для отопления и дизайна интерьера

Камины уже давно перестали быть просто источником тепла. Сегодня они стали важным элементом дизайна интерьера, способным преобразить любое пространство. Современные каминные топки предлагают не только функциональность, но и уникальные возможности для создания атмосферы уюта...

FT: Шольц резко ответил Дуде на предложение по активам России

ДзенКанцлер Германии Олаф Шольц раздраженно отреагировал на идею президента Польши Анджея Дуды о конфискации замороженных в ЕС российских активов, пишет Financial Times со ссылкой на очевидцев.«"Вы не понимаете, как это повлияет на стабильность наших...

В борьбе с Россией за базы в Сирии проиграет Европа

ДзенДмитрий БавыринВсе материалы"Мы хотим, чтобы русские ушли". Так позицию Евросоюза по будущему Сирии выразил глава МИД Нидерландов Каспар Вельдкамп. Примерно то же самое заявила главный евродипломат Кая Каллас: европейцы готовы снять с Дамаска санкции...

Запад пришел в ужас от русского вызова. И на дуэль не явился

ДзенЕлена КараеваВсе материалыТяжела и неказиста жизнь простого глобалиста. Начинается за здравие, а заканчивается за упокой. Саммит Евросовета, который собрался при полном параде в Брюсселе, был щедр на самодовольные сообщения о себе любимом и на...

Евросоюз ищет альтернативных поставщиков газа

Дзен Евросоюз в преддверии остановки Украиной транзита российского газа пытается найти других поставщиков: в октябре объединение впервые импортировало топливо из Мексики, а также вернулось к покупкам у Египта и Индонезии, следует из анализа РИА...