Теперь каждый может обучить себе рассуждающий ИИ всего за $450 — открыт исходный код Sky-T1

На этой неделе исследователи из лаборатории Sky Computing Lab Калифорнийского университета в Беркли запустили модель искусственного интеллекта Sky-T1-32B-Preview. Речь идёт о нейросети со способностью к рассуждениям, которая способна конкурировать с OpenAI o1 по ряду ключевых показателей.

Теперь каждый может обучить себе рассуждающий ИИ всего за $450 — открыт исходный код Sky-T1

По всей видимости, Sky-T1 является первой моделью с поддержкой рассуждений с открытым исходным кодом, что позволит воспроизвести её с нуля. Разработчики опубликовали набор данных, который использовался для обучения алгоритма, а также другие данные, необходимые для запуска ИИ-модели.

Одна из главных особенностей алгоритма в том, что для его обучения не требуются существенные затраты. «Примечательно, что Sky-T1-32B-Preview был обучен менее чем за $450», — написали разработчики в своём блоге. Таким образом, они наглядно продемонстрировали, что возможно создать ИИ-модель со способностью к рассуждения высокого уровня без существенных денежных вложений.

Ещё недавно стоимость обучения большой языковой модели с сопоставимыми характеристиками измерялась миллионами долларов. Существенно снизить затраты удалось за счёт использования синтетических данных, т.е. данных, сгенерированных другими нейросетями. К примеру, недавно выпущенный компанией Winter алгоритм Palmyra X 004 обучался на синтетических данных и обошёлся разработчикам в $700 тыс.

Читать также:
NVIDIA представила антисанкционную GeForce RTX 4090D для Китая — урезанный и неразгоняемый GPU по старой цене

В отличие от многих ИИ-алгоритмов, модели с возможностью рассуждения эффективно проверяют факты, что позволяет им давать более точные ответы и реже ошибаться, вводя пользователей в заблуждение. Кроме того, моделям рассуждения обычно требуется больше времени на формирование ответа на запрос по сравнению с обычными ИИ-алгоритмами. Однако обычно рассуждающие модели являются более надёжными, особенно в таких областях, как физика, математика и естественные науки.

Согласно имеющимся данным, разработчики задействовали модель рассуждения Alibaba QwQ-32B-Preview для создания первоначального набора данных для обучения Sky-T1. Далее данные преобразовывались с помощью GPT-4o-mini от OpenAI в более точный формат. Процесс обучения Sky-T1 с 32 млрд параметров занял около 19 часов, для чего были задействованы 8 графических ускорителей Nvidia H100.

«В дальнейшем мы сосредоточимся на разработке более эффективных моделей, которые сохраняют высокую производительность рассуждений, а также на изучении передовых методов повышения эффективности и точности моделей во время тестирования. Следите за обновлениями, пока мы добиваемся прогресса в реализации этих интересных инициатив», — написали разработчики в своём блоге.

НОВОЕ НА САЙТЕ

Даже ведущий разработчик Vampire: The Masquerade — Bloodlines 2 был против того, чтобы игра называлась Vampire: The Masquerade — Bloodlines 2

Вышедший недавно вампирский ролевой экшен Vampire: The Masquerade — Bloodlines 2 от Paradox Interactive и The Chinese Room не стал той игрой, которую фанаты ждали 20 лет. Предрекали такой исход и разработчики, причём задолго...

Qualcomm «убила» Arduino — теперь это не открытая DIY-платформа, а корпоративный сервис

Шесть недель назад Qualcomm приобрела Arduino. Сообщество разработчиков сразу же забеспокоилось, что Qualcomm уничтожит принципы открытого исходного кода, благодаря которым Arduino стала языком общения любителей электроники всей планеты. Судя по опубликованным на этой неделе...

Apple перекрыла один из главных каналов поставок дешёвых iPhone в Россию

Официальные дистрибьюторы Apple предупредили индийских ретейлеров о том, что их ждут крупные штрафы, если новые iPhone будут активироваться с иностранными SIM-картами в течение 90 дней с момента продажи. Эта мера направлена на борьбу с...

Представлены Honor 500 и Honor 500 Pro — смартфоны с дизайном iPhone Air и батареями на 8000 мА·ч по цене от $380

Honor официально представила в Китае серию смартфонов Honor 500, которая принесла масштабное обновление дизайна и ряд улучшений по части аппаратного обеспечения. Внешность обеих новинок — Honor 500 и Honor 500 Pro — очевидно вдохновлена...

Amazon показала антенну Leo Ultra для спутникового интернета на 1 Гбит/с — в 2,5 раза быстрее Starlink

Компания Amazon анонсировала Leo Ultra — антенну для своего сервиса спутникового интернета Amazon Leo (ранее назывался Project Kuiper). Производитель анонсировал программу тестирования устройства в закрытом режиме, а коммерческое внедрение запланировано на следующий год. Leo...