DeepSeek-V3

Год выпуска: 2024

Описание

DeepSeek-V3 — большая языковая модель с 671 млрд параметров, из которых 37 млрд активные. Модель доступна в открытом доступе и сопоставима с GPT-4o и Claude Sonnet 3.6

Оригинальная статья

Где можно попробовать: 1, 2

DeepSeek-V3 содержит 671 млрд параметров. Модель использует архитектуру Mixture of Experts, что означает использование только небольшой доли параметров во время генерации ответа на запрос. Модель задействует лишь 5,5% от общего числа параметров. Набор используемых параметров зависит от конкретного запроса пользователя.

За счёт оптимизаций процедуры обучения, в частности обучения модели в точности floating-point 8 bits, на обучение модели было затрачено около 5 млн долларов, что на порядки меньше затрат лидирующих компаний.

В отличие от большинства других LLM модель обучали предсказывать не один следующий токен (часть слова или целое слово), а сразу несколько подряд идущих. Это позволяет ускорить генерацию ответа на запросы пользователей.

В основных тестах модель показывает результаты на уровне или выше лидирующих коммерческих и открытых LLM, включая GPT-4o, Claude Sonnet 3.6, LLama 3 и Qwen2.5.

Примеры использования

Универсальный текстовый чат-бот или основа для агента.

Нововведения

Эффективное обучение во floating-point 8 bits.
Новый метод стабильно обучения MoE архитектуры.
Обучение предсказания сразу нескольких подряд идущих токенов.

Количество параметров: 671B всего, 37B активных

Автор: Михаил Ким

Теги:deepseek, LLM, NLP, Transformer

О проекте

СОЦСЕТИ

Теги

Темы

DeepSeek-V3

Читать по теме:

DeepSeek-R1

Kandinsky 2.1

О проекте

СОЦСЕТИ

Теги

Темы