Год выпуска: 2024
Описание
DeepSeek-V3 — большая языковая модель с 671 млрд параметров, из которых 37 млрд активные. Модель доступна в открытом доступе и сопоставима с GPT-4o и Claude Sonnet 3.6
DeepSeek-V3 содержит 671 млрд параметров. Модель использует архитектуру Mixture of Experts, что означает использование только небольшой доли параметров во время генерации ответа на запрос. Модель задействует лишь 5,5% от общего числа параметров. Набор используемых параметров зависит от конкретного запроса пользователя.
За счёт оптимизаций процедуры обучения, в частности обучения модели в точности floating-point 8 bits, на обучение модели было затрачено около 5 млн долларов, что на порядки меньше затрат лидирующих компаний.
В отличие от большинства других LLM модель обучали предсказывать не один следующий токен (часть слова или целое слово), а сразу несколько подряд идущих. Это позволяет ускорить генерацию ответа на запросы пользователей.
В основных тестах модель показывает результаты на уровне или выше лидирующих коммерческих и открытых LLM, включая GPT-4o, Claude Sonnet 3.6, LLama 3 и Qwen2.5.
Примеры использования
Универсальный текстовый чат-бот или основа для агента.
Нововведения
Количество параметров: 671B всего, 37B активных
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…