Читать нас в Telegram
date_range

Год выпуска: 2024

assignment

Описание

DeepSeek-V3 — большая языковая модель с 671 млрд параметров, из которых 37 млрд активные. Модель доступна в открытом доступе и сопоставима с GPT-4o и Claude Sonnet 3.6

insert_link

Где можно попробовать: 1, 2

DeepSeek-V3 содержит 671 млрд параметров. Модель использует архитектуру Mixture of Experts, что означает использование только небольшой доли параметров во время генерации ответа на запрос. Модель задействует лишь 5,5% от общего числа параметров. Набор используемых параметров зависит от конкретного запроса пользователя.

За счёт оптимизаций процедуры обучения, в частности обучения модели в точности floating-point 8 bits, на обучение модели было затрачено около 5 млн долларов, что на порядки меньше затрат лидирующих компаний.

В отличие от большинства других LLM модель обучали предсказывать не один следующий токен (часть слова или целое слово), а сразу несколько подряд идущих. Это позволяет ускорить генерацию ответа на запросы пользователей.

В основных тестах модель показывает результаты на уровне или выше лидирующих коммерческих и открытых LLM, включая GPT-4o, Claude Sonnet 3.6, LLama 3 и Qwen2.5.

Примеры использования

Универсальный текстовый чат-бот или основа для агента.

Нововведения

  1. Эффективное обучение во floating-point 8 bits.
  2. Новый метод стабильно обучения MoE архитектуры.
  3. Обучение предсказания сразу нескольких подряд идущих токенов.

Количество параметров: 671B всего, 37B активных