DeepSeek выпустила «дистиллированную» версию обновлённой ИИ-модели R1 — для работы ей хватит одной видеокарты

Китайский стартап DeepSeek представил вместе с улучшенной версией ИИ-модели R1 со способностью к рассуждению на базе 685 млрд параметров ещё одну, гораздо меньшую версию R1, созданную методом дистилляции — DeepSeek-R1-0528-Qwen3-8B. По словам разработчиков, новая версия превосходит сопоставимые по размеру модели в ряде тестов.

DeepSeek выпустила «дистиллированную» версию обновлённой ИИ-модели R1 — для работы ей хватит одной видеокарты

Сообщается, что DeepSeek-R1-0528-Qwen3-8B, созданная методом дистилляции с использованием в качестве основы модели Qwen3-8B, выпущенной компанией Alibaba в мае этого года, показала лучшие результаты, чем Gemini 2.5 Flash от Google в математическом бенчмарке AIME 2025. Кроме того, DeepSeek-R1-0528-Qwen3-8B «почти соответствует» недавно представленной модели рассуждений Phi 4 Plus от Microsoft в другом тесте математических навыков — HMMT.

Хотя модели, полученные методом дистилляции, как правило, уступают полноразмерным аналогам по эффективности, они значительно менее требовательны к вычислительным ресурсам. Согласно данным облачной платформы NodeShift, для работы Qwen3-8B требуется GPU с 40–80 Гбайт оперативной памяти (например, Nvidia H100). Для сравнения, полноразмерной обновлённой версии R1 требуется около дюжины GPU с объёмом памяти 80 Гбайт каждый.

Читать также:
Резинотехнические изделия: ковры и рукава — надежность и универсальность в промышленности

В процессе обучения модели DeepSeek-R1-0528-Qwen3-8B стартап использовал текст, сгенерированный обновлённой моделью R1, для тонкой настройки Qwen3-8B. В описании на платформе разработки ИИ Hugging Face стартап указал, что эта модель рассуждений может применяться «как для академических исследований, так и для промышленной разработки, ориентированной на модели малого масштаба».

DeepSeek-R1-0528-Qwen3-8B распространяется по разрешительной лицензии MIT, что позволяет использовать её в коммерческих целях без ограничений. Несколько приложений, включая LM Studio, уже предлагают эту модель через API.

НОВОЕ НА САЙТЕ

Razer выпустила коллекцию геймерских аксессуаров по мотивам Zenless Zone Zero

Компания Razer сообщила о коллаборации с компанией HoYoverse. В её рамках производитель компьютерных комплектующих выпустил коллекцию периферии для ПК по мотивам гача-игры Zenless Zone Zero. Обзор смартфона HONOR...

Инженеры Meta✴ создали лазерный дисплей толщиной 2 мм и обещают революцию в смарт-очках

Группа исследователей Meta✴ сообщила, что им удалось создать компактный дисплей с лазерной подсветкой, достаточно тонкий для размещения в очках дополненной реальности. Их последний прототип имеет толщину всего два миллиметра и отличается высокой яркостью и...

Dark Souls, BioShock и Dishonored в одном флаконе: журналисты показали 33 минуты геймплея ролевого боевика Valor Mortis от создателей Ghostrunner

Издание IGN опубликовало ролик с демонстрацией прохождения доступной на выставке Gamescom 2025 демоверсии ролевого экшена от первого лица Valor Mortis, разрабатываемого польской студией One More Level (дилогия Ghostrunner). ...

Видео: робот Atlas от Boston Dynamics продолжает работать, пока его толкают, мешают и отбирают вещи

После десяти месяцев совместных усилий компании Boston Dynamics и Toyota Research Institute (TRI) сообщили о значительном прогрессе в разработке человекоподобных роботов. Они продемонстрировали возможности робота Atlas, управляемого большой поведенческой моделью (Large Behavior Model, LBM)....

США взялись за спасение Intel: компания стала частично государственной

Администрация Дональда Трампа (Donald Trump) и компания Intel объявили о заключении соглашения, в рамках которого США приобретут 9,9-процентную долю в компании. Сделка стоимостью $8,9 млрд направлена на поддержку амбициозного плана по возрождению американского производства...