OpenAI представила думающую языковую модель o1

Компания OpenAI представила новую языковую модель o1, обладающую способностью к рассуждению и логически решать задачи. В отличие от предыдущих моделей, o1 способна имитировать человеческий процесс мышления, разбивая сложные задачи на более простые шаги, анализируя разные подходы и исправляя собственные ошибки.

OpenAI представила думающую языковую модель o1

Большая языковая модель (LLM) o1 показала выдающиеся результаты в тестах и соревнованиях, сравнимые с результатами специалистов-людей. По программированию o1 заняла 49-е место на Международной олимпиаде по информатике (IOI) 2024 года и превзошла 89 % людей на платформе Codeforces. По математике o1 вошла в число 500 лучших студентов США на квалификационном этапе Американской математической олимпиады (AIME), продемонстрировав способность решать задачи, предназначенные для самых одарённых школьников, сообщает OpenAI на своём сайте.

В естественных науках модель превзошла результаты докторов и кандидатов наук в сложном тесте GPQA diamond, оценивающем знания в области химии, физики и биологии. «Это не означает, что o1 умнее любого кандидата наук, — поясняют разработчики. — Это говорит о том, что модель способна решать некоторые задачи на уровне высококвалифицированных специалистов».

Модель o1 также продемонстрировала превосходство над предыдущими моделями в различных тестах на интеллект и решение задач, включая MMMU и MMLU. По данным OpenAI, новая модель значительно превосходит предшествующую версию GPT-4o на большинстве задач, связанных с логическим мышлением. «Наши испытания показали, что o1 последовательно улучшает результаты с увеличением объёма ренфорсмент-обучения и времени, потраченного на размышления», — отмечают в компании. В частности, в тестах AIME модель o1 решила в среднем 83 % задач, тогда как результат GPT-4o — 13 %.

Читать также:
Первый в истории полёт астронавтов над полюсами Земли завершился — Crew Dragon приводнился в Тихом океане

Модель о1 значительно меньше галлюцинирует, чем GPT-4o. Однако она медленнее и дороже. Кроме того o1 проигрывает GPT-4o в энциклопедических знаниях и не умеет обрабатывать веб-страницы, файлы и изображения. Кроме того, новая модель может манипулировать данными, подгоняя решение под результат.

Секрет успеха кроется в фундаментально новом алгоритме обучения — «цепочке мыслей». Модель может улучшать эту цепочку, обучаясь по методу «обучение с подкреплением», благодаря которому распознаёт и исправляет свои ошибки, разбивает сложные шаги на более простые и пробует разные подходы в решении задач. Эта методология значительно улучшает способность модели к рассуждению, которая «как и человек может длительное время размышлять перед тем, как ответить на сложный вопрос».

OpenAI уже выпустила предварительную версию модели o1-preview, доступную для использования в ChatGPT и для разработчиков через API. Компания признаёт, что предстоит ещё много работы, чтобы сделать o1 такой же простой в использовании, как и текущие модели. Также подчёркивается безопасность и этичность новой модели, так как её рассуждения можно контролировать, предотвращая потенциально нежелательное поведение. И прежде чем выпустить o1-preview для публичного использования, со стороны OpenAI были проведены тесты на безопасность.

Стоимость использования o1-preview составляет 15 долларов за 1 млн входных токенов и 60 долларов за 1 млн выходных токенов. Для сравнения, GPT-4o предлагает цену в $5 за 1 млн входных токенов и $15 за миллион выходных.

НОВОЕ НА САЙТЕ

Oukitel WP60 — сверхпрочный смартфон с ёмкой батареей и ярким дизайном

Компания Oukitel представила в России защищенный смартфон WP60, сочетающий в себе исключительную прочность с ярким, привлекательным дизайном. Созданный для поклонников активного отдыха, профессионалов и любителей технологий, новый флагман обеспечивает стабильную работу даже в самых...

Представлена глобальная версия смартфона RedMagic 11 Pro с воздушно-жидкостным кулером и урезанной батареей за $699

Бренд Redmagic анонсировал международный выпуск игрового смартфона RedMagic 11 Pro, оснащённого воздушно-жидкостной системой охлаждения. Стоимость устройства на международном рынке будет начинаться от $699, а в США — от $749. Смартфон предлагает флагманский процессор Snapdragon...

Исследование: игроки тратят на ремейки вдвое больше денег, чем на ремастеры, не считая The Elder Scrolls IV: Oblivion Remastered

Портал Video Games Chronicle со ссылкой на результаты исследования аналитической компании Ampere Analysis рассказал о предпочтениях мирового геймера в вопросе ремастеров и ремейков классических игр. HUAWEI FreeArc: вероятно,...

Nintendo выиграла суд против стримера пиратских игр для Switch, вручив ему повестку через родственников

Nintendo выиграла иск против геймера, который стримил пиратские версии игр для консоли Switch до их релиза, регулярно при этом отпуская язвительные комментарии в адрес компании. Фитнес-браслет HUAWEI Band...

В раннем доступе Steam открыл двери симулятор фэнтезийного трактира Tavern Keeper от создателей Game Dev Tycoon

Как и было обещано, 3 ноября спустя 11 лет разработки в ранний доступ Steam ворвался симулятор фэнтезийной таверны Tavern Keeper от австралийской студии Greenheart Games, известной по Game Dev Tycoon. ...