Компания DeepSeek представила обновление своей большой языковой модели DeepSeek-V3.
Разработчики фокусировались на развитии агентных возможностей: способности модели автономно выполнять задачи на компьютере. О важности агентов в развитии ИИ мы писали в дайджесте.
Архитектура модели осталась прежней, но теперь нет разделения на «рассуждающую» и «быструю» версии — DeepSeek-V3.1 объединяет оба режима. В режиме рассуждений она показывает те же результаты в тестах по математике и программированию, что и предыдущая версия, но генерирует более лаконичные промежуточные размышления. Другими словами, разработчики ускорили модель без потери качества.
Стоимость доступа к API незначительно выросла, однако DeepSeek-V3.1 по-прежнему остается самой дешевой из сопоставимых моделей. Веса модели опубликованы в открытом доступе под лицензией, разрешающей коммерческое использование. Попробовать модель можно через официальный сайт и мобильное приложение. Подробнее о DeepSeek и работе с ним мы рассказывали ранее.
Почему это важно?
LLM от DeepSeek популярна как среди энтузиастов, так и среди широкой аудитории. Подробная техническая статья о DeepSeek-R1 открыла open-source сообществу простой и надежный метод обучения рассуждающих моделей, аналогичных закрытой o1 от OpenAI, что значительно сократило разрыв между проприетарными и открытыми LLM.
Данные, генерируемые моделями DeepSeek, активно используются для обучения других моделей. По слухам, ими пользуются не только независимые разработчики и небольшие компании, но и крупная французская ИИ-компания Mistral.