Год выпуска: 2024
Описание
DeepSeek-V3 — большая языковая модель с 671 млрд параметров, из которых 37 млрд активные. Модель доступна в открытом доступе и сопоставима с GPT-4o и Claude Sonnet 3.6
DeepSeek-V3 содержит 671 млрд параметров. Модель использует архитектуру Mixture of Experts, что означает использование только небольшой доли параметров во время генерации ответа на запрос. Модель задействует лишь 5,5% от общего числа параметров. Набор используемых параметров зависит от конкретного запроса пользователя.
За счёт оптимизаций процедуры обучения, в частности обучения модели в точности floating-point 8 bits, на обучение модели было затрачено около 5 млн долларов, что на порядки меньше затрат лидирующих компаний.
В отличие от большинства других LLM модель обучали предсказывать не один следующий токен (часть слова или целое слово), а сразу несколько подряд идущих. Это позволяет ускорить генерацию ответа на запросы пользователей.
В основных тестах модель показывает результаты на уровне или выше лидирующих коммерческих и открытых LLM, включая GPT-4o, Claude Sonnet 3.6, LLama 3 и Qwen2.5.
Примеры использования
Универсальный текстовый чат-бот или основа для агента.
Нововведения
- Эффективное обучение во floating-point 8 bits.
- Новый метод стабильно обучения MoE архитектуры.
- Обучение предсказания сразу нескольких подряд идущих токенов.
Количество параметров: 671B всего, 37B активных