Новая ИИ-модель DeepSeek сможет работать на одном GPU

Китайская ИИ-лаборатория DeepSeek обновила «рассуждающую» ИИ-модель R1. Ее «дистиллированная» версия способна работать на одной видеокарте.

DeepSeek-R1-0528-Qwen3-8B создана на базе Qwen3-8B, которую Alibaba презентовала в мае. Согласно заявлению компании, она показала результаты лучше Gemini 2.5 Flash от Google в AIME 2025 — сборнике сложных математических вопросов.

«Дистиллированная» версия — упрощенный и ускоренный вариант большой модели машинного обучения, полученный с помощью метода дистилляции знаний. Подобные нейросети чаще всего не так производительны, но гораздо менее требовательны к вычислениям.

Согласно данным NodeShift, для работы Qwen3-8B требуется графический процессор с 40-80 Гб видеопамяти. Она может быть запущена на одной видеокарте Nvidia H100.

DeepSeek использовала обновленную версию R1 и Qwen3-8B для обучения и настройки DeepSeek-R1-0528-Qwen3-8B.

Новая вариант основной нейросети R1 имеет незначительные обновления, утверждает компания. Она доступна на платформе Hugging Face.

Разработчик с ником xlr8harder обратил внимание, что модель менее охотно дискуссирует на спорные темы, особенно связанные с китайским правительством.

Deepseek R1 0528 is substantially less permissive on contentious free speech topics than previous Deepseek releases.

It’s unclear if this indicates they’ve adapted their post-training goals, or if this is another example of a reasoning model. pic.twitter.com/BPOYodBCAH
— xlr8harder (@xlr8harder) May 29, 2025

«DeepSeek заслуживает критики за этот релиз: эта модель — большой шаг назад для свободы слова. Смягчает ситуацию то, что нейросеть имеет открытый исходный код с разрешительной лицензией, так что сообщество может (и будет) решать эту проблему», — отметил он.

В одном из примеров модель отказалась приводить аргументы за нарушение прав человека в лагерях для интернированных в Синьцзяне. Она признала сам факт, но избежала прямой критики китайского правительства.

«Интересно, хотя и не совсем удивительно, что она способна привести лагеря в качестве примера нарушения прав человека, но отрицает это, когда ее спрашивают напрямую», — написал xlr8harder.

Напомним, в апреле DeepSeek выложила в открытый доступ новую ориентированную на математику ИИ-модель Prover.

Пн	Вт	Ср	Чт	Пт	Сб	Вс
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

BitCoin.com.ua

Новая ИИ-модель DeepSeek сможет работать на одном GPU

отRobert Brown

Похожая запись

На крипторынок влияет эффект «узкого горлышка» — Wintermute

Крупный майнер назвал причину распродажи добытой криптовалюты

Аналитики CryptoQuant объяснили падение хешрейта сети Биткоина

You missed

Активность крупных держателей биткоина указала на риск падения курса до $60 000

Биткоин подешевел на фоне роста доллара и облигаций из-за протоколов ФРС

Уолл-стрит начала экспансию на рынки прогнозов через запуск новых фондов

Набиуллина предложила наказывать за «нерегулируемые операции» с криптовалютой

BitCoin.com.ua