DeepSeek придумал, как повысить эффективность ИИ-моделей с помощью самообучения

Китайский стартап DeepSeek прославился в начале года, выпустив рассуждающую модель R1, которая смогла конкурировать с ИИ-моделями американских технологических гигантов, несмотря на скромный бюджет. Теперь DeepSeek опубликовал в сотрудничестве с исследователями университета Цинхуа статью с подробным описанием нового подхода к обучению моделей с подкреплением, позволяющего значительно повысить их эффективность. Об этом сообщил ресурс SCMP.

DeepSeek придумал, как повысить эффективность ИИ-моделей с помощью самообучения

Согласно публикации, новый метод направлен на то, чтобы помочь ИИ-моделям лучше соответствовать человеческим предпочтениям, используя механизм вознаграждений за более точные и понятные ответы. Обучение с подкреплением доказало свою эффективность в ускорении решения задач ИИ в ограниченных сферах и приложениях. Однако его использование для более общих задач оказалось не столь эффективным. Команда DeepSeek пытается решить этот вопрос, объединив генеративное моделирование вознаграждения (GRM) и так называемую настройку самокритики на основе принципов. Как утверждается в статье, новый подход с целью улучшения возможностей рассуждений больших языковых моделей (LLM) превзошёл существующие методы, что подтверждено проверкой моделей в различных тестах, и позволил получить самую высокую производительность для общих запросов при использовании меньших вычислительных ресурсов.

Читать также:
Эксперты Bernstein считают, что Intel будет устранять свои ошибки минимум до 2030 года

Новые модели получили название DeepSeek-GRM — сокращение от термина Generalist Reward Modeling (универсальное моделирование вознаграждения). Компания сообщила, что новые модели будут с открытым исходным кодом, однако сроки их выхода пока не объявлены. В прошлом месяце агентство Reuters сообщило со ссылкой на информированные источники, что в апреле компания также выпустит DeepSeek-R2, преемника рассуждающей модели R1.

Другие ведущие разработчики в сфере ИИ, включая китайскую Alibaba Group Holding и OpenAI из Сан-Франциско (США), также работают над улучшением возможностей рассуждения и самосовершенствования ИИ-моделей, отметил Bloomberg.

НОВОЕ НА САЙТЕ

«Дало бы шанс». СМИ назвали единственный способ помочь Украине

Дзен Реальной помощью Украине от европейских лидеров могло бы стать лишение Владимира Зеленского власти, пишет Strategic Culture.«"Единственной реальной помощью было бы отстранение Зеленского от власти, что дало бы стране шанс провести выборы и избрать...

В Германии заявили об угрозе военной конфронтации в Балтийском море

Дзен Министр иностранных дел Германии Йоханн Вадефуль заявил, что регион Балтийского моря стал ключевым для обеспечения безопасности Европы, и угроза военной конфронтации там реальна, сообщило агентство DPA. "Это зона, где угроза военной конфронтации реальна",...

Представление о российской экономики как о сырьевой устарело, заявил Путин

Дзен Представление о российской экономике как о сырьевой явно устарело, заявил президент РФ Владимир Путин."Представления о российской экономике как исключительно сырьевой, зависимой от экспорта углеводородов, явно устарели. Они уходят в прошлое. Реальность говорит о...

Путин отметил важность поддерживания Россией статуса крупнейшей экономики

Дзен Президент РФ Владимир Путин заявил, что для России важно постоянно поддерживать статус одной из крупнейших экономик."Важно постоянно подтверждать статус одной из крупнейших экономик. Создавать комфортные условия, чтобы бизнес и отечественный, и из дружественных...

Захарова назвала переговоры Ирана и Европы «мегафонной оголтелой риторикой»

Дзен Переговоры между Ираном и странами Европы по ядерной тематике являются "мегафонной оголтелой риторикой", если в Европе хотят заниматься реальной дипломатией, то у них есть все возможности, например в рамках МАГАТЭ, заявила официальный представитель...