DeepSeek выпустила «дистиллированную» версию обновлённой ИИ-модели R1 — для работы ей хватит одной видеокарты

Китайский стартап DeepSeek представил вместе с улучшенной версией ИИ-модели R1 со способностью к рассуждению на базе 685 млрд параметров ещё одну, гораздо меньшую версию R1, созданную методом дистилляции — DeepSeek-R1-0528-Qwen3-8B. По словам разработчиков, новая версия превосходит сопоставимые по размеру модели в ряде тестов.

DeepSeek выпустила «дистиллированную» версию обновлённой ИИ-модели R1 — для работы ей хватит одной видеокарты

Сообщается, что DeepSeek-R1-0528-Qwen3-8B, созданная методом дистилляции с использованием в качестве основы модели Qwen3-8B, выпущенной компанией Alibaba в мае этого года, показала лучшие результаты, чем Gemini 2.5 Flash от Google в математическом бенчмарке AIME 2025. Кроме того, DeepSeek-R1-0528-Qwen3-8B «почти соответствует» недавно представленной модели рассуждений Phi 4 Plus от Microsoft в другом тесте математических навыков — HMMT.

Хотя модели, полученные методом дистилляции, как правило, уступают полноразмерным аналогам по эффективности, они значительно менее требовательны к вычислительным ресурсам. Согласно данным облачной платформы NodeShift, для работы Qwen3-8B требуется GPU с 40–80 Гбайт оперативной памяти (например, Nvidia H100). Для сравнения, полноразмерной обновлённой версии R1 требуется около дюжины GPU с объёмом памяти 80 Гбайт каждый.

Читать также:
В середине года ИИ выйдет на новый уровень — OpenAI выпустит «существенно улучшенную» нейросеть GPT-5

В процессе обучения модели DeepSeek-R1-0528-Qwen3-8B стартап использовал текст, сгенерированный обновлённой моделью R1, для тонкой настройки Qwen3-8B. В описании на платформе разработки ИИ Hugging Face стартап указал, что эта модель рассуждений может применяться «как для академических исследований, так и для промышленной разработки, ориентированной на модели малого масштаба».

DeepSeek-R1-0528-Qwen3-8B распространяется по разрешительной лицензии MIT, что позволяет использовать её в коммерческих целях без ограничений. Несколько приложений, включая LM Studio, уже предлагают эту модель через API.

НОВОЕ НА САЙТЕ

Журналист рассказал, какой удар по Западу нанесла Украина

ДзенMaxTelegramГосударственный долг Великобритании в течение 20 лет вырос в три раза и из-за помощи Украине продолжает стремительно расти, написал в соцсети Х ирландский журналист Чей Боуз."Украинская "помощь" имеет свою цену. Государственный долг Великобритании утроился...

Вулин раскритиковал решения европейских судов по «Северным потокам»

ДзенMaxTelegram Председатель наблюдательного совета госкомпании "Србиягаз", бывший вице-премьер Сербии Александр Вулин в интервью РИА Новости назвал политическими решения европейских судов по "Северным потокам". Суд итальянской Болоньи в конце октября принял решение об экстрадиции в...

Элиты Европы в отчаянии: Гренландия готовится отражать российскую агрессию

ДзенMaxTelegramВладимир КорниловВсе материалыПравительство Дании резко наращивает оборону своей заморской колонии — острова Гренландия. Копенгаген заявил, что выделяет дополнительные 4,2 миллиарда долларов на закупку кораблей, дронов и систем ПВО, а также 4,5 миллиарда — на...

Кнайсль высказалась о готовности Европы к нормальному диалогу в Россией

ДзенMaxTelegram Сейчас нет уверенности в том, что в Европе может скоро появиться новое поколение политиков, готовых к нормальному диалогу с Россией, сказала в беседе с РИА Новости экс-министр иностранных дел Австрии, руководитель центра G.O.R.K.l....

СМИ узнали, какие страны выступают против передачи Киеву российских активов

ДзенMaxTelegram Италия, Франция и Бельгия выступают против инициативы по передаче Киеву замороженных активов РФ как основу для кредита Украине, пишет газета Corriere della Sera. "Италия и Франция следуют с некоторым сопротивлением: вероятно, оба правительства...