DeepSeek — новая китайская нейросеть, вызвавшая фурор как среди простых пользователей, так и специалистов. Некоторые даже окрестили ее «убийцей ChatGPT». В новом обзоре мы подробно расскажем о функционале этой нашумевшей нейросети, поделимся рекомендациями по ее использованию и ответим на самые распространенные вопросы о возможностях DeepSeek.
Иллюстрация: Женя Родикова
DeepSeek — это большая языковая модель (LLM) с интерфейсом в виде чат-бота. Нейросеть была создана китайской компанией High-Flyer AI (Hangzhou High-Flyer AI Fundamental Research Co.,Ltd.). High-Flyer AI была зарегистрирована в 2019 году, однако ее история начинается гораздо раньше, когда еще в 2008 году группа китайских исследователей занялась разработкой автоматизированного количественного трейдинга с применением методов машинного обучения. Первая сделка, предложенная алгоритмом глубокого обучения, была совершена 21 октября 2016 года. Со временем работа компании привела к созданию DeepSeek — универсальной языковой модели широкого применения.
У DeepSeek получилась бесплатная, но не менее эффективная нейросеть, которая по многим бенчмаркам (системам оценок моделей) не хуже, а то и превосходит нынешних лидеров в сфере ИИ (ChatGPT, Claude, Gemini, LLAMA). Китайские разработчики существенно снизили стоимость обучения модели и выложили исходный код в открытый доступ. Мы уже говорили, что, например, стоимость обучения DeepSeek-V3, по заявлениям компании, в десятки раз ниже, чем у конкурентов. На обучение модели было затрачено около 5,6 млн долларов во многом за счет оптимизации процедуры обучения, в частности обучения модели в точности floating-point 8 bits. А вот оценочная стоимость обучения ChatGPT-4 составляет 78 млн долларов, говорится в отчете The 2024 AI Index Report.
Оценочная стоимость обучения нейросетевых моделей от Google, OpenAI, Meta* и Microsoft
В нашем недавнем дайджесте мы писали, что на фоне ускорения гонки ИИ Франция и ОАЭ объявили о совместных инвестициях в размере 30–50 млрд евро для создания нового дата-центра.
Модели семейства DeepSeek используют архитектуру Mixture of Experts (MoE), которая снижает вычислительные затраты без потери качества. Вместо того чтобы задействовать все параметры одновременно, модель активирует только небольшую часть — например, 5,5% от общего числа. Модель содержит в себе несколько подмоделей, их называют «экспертами». Каждый эксперт умеет обрабатывать только определенные токены (части слова или целые слова) в определенных контекстах. Для каждого запроса специальная подмодель (gating) определяет набор экспертов, которые необходимы для его обработки. Всего в моделях DeepSeek 256 экспертов, но во время генерации ответа используется лишь 9: один из них используется при любых запросах, а остальные динамически определяются в зависимости от запроса
DeepSeek за рубежом не подвергается жесткой цензуре, что позволяет пользователям обсуждать темы, которые могут быть ограничены в других системах. Однако когда дело касается китайской политики, цензура все же присутствует. Например, бот не дает комментариев по поводу «событий 4 июня»* и отправляет сообщения об ошибках.
4 июня 1989 года Народно-освободительная армия Китая с применением огнестрельного оружия и бронетехники подавила студенческие протесты на площади Тяньаньмэнь в Пекине, что привело к многочисленным жертвам.
Цензурное ограничение в запросах к DeepSeek
Перейдите на главную страницу сайта www.deepseek.com и нажмите кнопку Start now.
Выберите удобный способ регистрации: с помощью электронной почты или через Google-аккаунт.
Стартовая страница DeepSeek
Приложение DeepSeek на смартфон также доступно без региональных ограничений. Вы можете скачать его в App Store, Google Play или с помощью QR-кода на сайте (кнопка Get DeepSeek App на главной странице).
Чат-бот и само приложение доступны бесплатно, однако доступ к API DeepSeek оплачивается отдельно: от $0,14 за миллион токенов (минимальная текстовая единица). Итоговая стоимость и скорость ответа зависят от выбранной модели и настроек кеширования контента.
Нейросетью DeepSeek можно пользоваться локально на ПК с помощью бесплатной программы Ollama.
Для этого нужно скачать Ollama с официального сайта, выбрать версию для своей ОС (MacOS, Linux или Windows), установить ее и проверить корректность установки через команду ollama -v в терминале.
Затем на сайте Ollama во вкладке «Models» выберите модель deepseek-r1: подберите версию в зависимости от характеристик вашего компьютера (например, модель 7b требует от 3,5 Гб ОЗУ и 12 Гб видеопамяти), и запустите её командой ollama run deepseek-r1:7b.
Важно понимать, что локальные версии таких моделей — меньше и проще тех, что доступны в приложениях, а потому «глупее». Они используют ресурсы пользовательского ПК, имеют меньше параметров и более простую архитектуру. Такие модели удобны для автономного использования, но для сложных задач и обработки больших объемов данных лучше использовать серверные решения.
Для разработчиков открытый код дает свободу кастомизации: можно создать собственный интерфейс или адаптировать модель под конкретные задачи.
DeepThink — это режим рассуждения, подобный режиму «Обоснуй» у GPT-o1 и o1-mini. DeepThink активирует модель R1, которой можно пользоваться без ограничений по лимитам и которая не требует подписки, как у конкурентов.
Кнопка, активирующая режим DeepThink в модели R1
Рассуждения DeepSeek, по сравнению с ChatGPT, выглядят более детальными.
На скриншотах выше показана меньшая часть рассуждений DeepSeek. На рассуждение модель потратила 169 секунд, тогда как ChatGPT «думала» над этим же вопросом всего 25 секунд.
Рассуждения ChatGPT выглядят гораздо проще и неформальнее, так как модель показывает не полноценные рассуждения, а их упрощенную версию.
DeepSeek также имеет режим Search, что позволяет находить актуальную информацию в интернете. Однако на данный момент этот режим не работает.
Отдельного внимания заслуживает способность модели к фактчекингу, который можно воспроизводить без ограничений в лимитах (по сравнению с ChatGPT).
Фактчек отрывка из статьи с названием «Технологии будущего: как они преобразят жизнь человека в следующие несколько лет»
В рабочем поле DeepSeek можно ввести текстовый запрос и добавить до 50 файлов размером до 100 МБ каждый. Поддерживаются форматы DOCX, TXT, JSON, CSV, XLSX, PDF, PNG, PPTX, но в изображениях и презентациях нейросеть распознает только текст.
Модели V3 и R1 не могут рисовать изображения, однако у DeepSeek есть специальная модель Janus Pro. Это продвинутая мультимодальная языковая модель от DeepSeek, усовершенствованная версия оригинальной Janus. Ее архитектура построена так, чтобы модель была способна и анализировать изображения, и генерировать их. Janus Pro доступна в двух версиях: 1B и 7B. Главное нововведение Janus Pro — авторегрессионная модель LlamaGen. Главное отличие этой архитектуры от диффузионных моделей в том, что она работает по принципам LLM и предсказывает следующий токен на основе предыдущих.
В утреннем выпуске новостей 2 февраля 2025 года на канале «Россия 1» было сказано, что основой для чат-бота DeepSeek стал программный код, разработанный в СССР в 1985 году. История была выдумана сатирическим изданием ИА «Панорама» 29 января. Утверждалось, что глава компании Лян Вэньфэн якобы рассказал американскому блогеру, будто код DeepSeek был создан «на базе системы ОГАС академика Глушкова» в 1985 году («Системный Блокъ» подробно рассказывал о системе ОГАС — нереализованном проекте «советского интернета»).
Кадр из эфира «Россия 1», во время которого ведущий зачитал фейковую новость о связи DeepSeek с ОГАС
Эта информация была подхвачена СМИ и технологическими пабликами, но является чистым вымыслом. Никакого отношения к ОГАС DeepSeek не имеет. В основе модели — трансформерная архитектура, которая была придумана в 2016–2017 годах.
Если вы столкнулись с ошибкой «Сервер занят» в DeepSeek, попробуйте следующие шаги:
Некоторые пользователи могут столкнуться с проблемами еще при регистрации в DeepSeek. Хотя проще всего войти через аккаунт Google, это не всегда возможно.
Если не приходит код подтверждения, попробуйте следующие действия:
Если эти шаги не помогают, обратитесь в техническую поддержку DeepSeek через сайт или мобильное приложение, выбрав опцию «Свяжитесь с нами» в настройках.
Недавно пользователи DeepSeek, начали замечать сбои в загрузке PDF-файлов и изображений. DeepSeek был ценен для специалистов и студентов благодаря технологии оптического распознавания текста (OCR), которая позволяла быстро извлекать текст из сканов, конвертировать их в удобные форматы и упрощать поиск нужной информации.
К сожалению, платформа приостановила поддержку PDF и других файлов. Это коснулось как веб-версии, так и мобильных приложений.
*Meta признана в РФ экстремистской организацией
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…