DeepSeek-V3

Третья версия языковой модели от DeepSeek

31.12.2024

Год выпуска: 2024

Описание

DeepSeek-V3 — большая языковая модель с 671 млрд параметров, из которых 37 млрд активные. Модель доступна в открытом доступе и сопоставима с GPT-4o и Claude Sonnet 3.6

Оригинальная статья

Где можно попробовать: 1, 2

DeepSeek-V3 содержит 671 млрд параметров. Модель использует архитектуру Mixture of Experts, что означает использование только небольшой доли параметров во время генерации ответа на запрос. Модель задействует лишь 5,5% от общего числа параметров. Набор используемых параметров зависит от конкретного запроса пользователя.

За счёт оптимизаций процедуры обучения, в частности обучения модели в точности floating-point 8 bits, на обучение модели было затрачено около 5 млн долларов, что на порядки меньше затрат лидирующих компаний.

В отличие от большинства других LLM модель обучали предсказывать не один следующий токен (часть слова или целое слово), а сразу несколько подряд идущих. Это позволяет ускорить генерацию ответа на запросы пользователей.

В основных тестах модель показывает результаты на уровне или выше лидирующих коммерческих и открытых LLM, включая GPT-4o, Claude Sonnet 3.6, LLama 3 и Qwen2.5.

Примеры использования

Универсальный текстовый чат-бот или основа для агента.

Нововведения

Эффективное обучение во floating-point 8 bits.
Новый метод стабильно обучения MoE архитектуры.
Обучение предсказания сразу нескольких подряд идущих токенов.

Количество параметров: 671B всего, 37B активных

Автор: Михаил Ким

Теги:deepseek, LLM, NLP, Transformer

Next «Системный Блокъ»: лучшее за 2024 год »

Previous « DeepSeek-R1

Tags: deepseekLLMNLPTransformer

31.12.2024

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

США усилили контроль над лидирующими ИИ моделями, ученые смогли полностью прочитать античный свиток, не разворачивая его — что произошло в…

06.07.2026

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Агенты, которые самостоятельно планируют свои действия и пользуются внешними инструментами. Модели, способные работать с миллионами токенов. Системы, которые помогают сохранять…

02.07.2026

Новости

Национальный корпус русского языка вырос в шесть раз

Теперь в него входят тексты ВКонтакте — почти 11,3 млрд слов из соцсетей

30.06.2026

DeepSeek-V3

Recent Posts

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Национальный корпус русского языка вырос в шесть раз