Читать нас в Telegram

Команда GigaChat из Сбера выложила в открытый доступ раннюю версию своей новой большой языковой модели — GigaChat 3 Ultra. Эта модель имеет 702 миллиарда параметров и обучена с нуля на русском языке. Это делает её крупнейшей русскоязычной LLM, обученной с нуля (хотя в ней есть не только русский — GigaChat обучали на 10 языках, включая китайский, арабский, казахский и узбекский).

Разработчики подчёркивают, что не стали дообучать готовые языковые модели — вместо этого команда взяла за основу только архитектурный «каркас» DeepSeek V3, после чего провела все этапы обучения с чистого листа на собственном массиве данных. За счёт этого, как утверждают создатели, удалось обеспечить понимание русского языка, культурных особенностей и контекстов без посторонних ограничений и искажений. Уже сейчас новый флагман Сбера лидирует в бенчмарке MERA (Multimodal Evaluation of Russian-language Architectures), превосходя и DeepSeek V3, и Gemini 2.0 Flash, и GigaChat Max 2. Правда, тут важно отметить, что бенчмарк MERA создавался тоже в основном силами Сбера, так что модель ещё нуждается в более независимой оценке.

В основе GigaChat 3 Ultra лежит архитектура Mixture of Experts (MoE), которая позволяет эффективнее использовать компьютерную память при работе LLM, не теряя в общем размере модели. Идея в том, чтобы для обработки конкретного запроса и генерации ответа использовать только нужного «эксперта», то есть ограниченную часть параметров (в данном случае — 36 миллиардов из 702). Это позволяет модели иметь огромную базу знаний и при этом работать быстро.

Раннюю версию выпустили под открытой лицензией, благодаря чему модель можно будет дообучать локально на собственных данных (например, для нужд бизнеса). Также разработчики добавили опции для пользователей:

  • новый подход к реализации поиска: модель анализирует запрос пользователя и автоматически разбивает его на несколько более мелких и конкретных запросов — это позволяет получить полный и структурированный ответ без лишней информации;
  • персонализация и память о пользователе: модель запоминает факты, относящиеся к определённым категориям (например, интересы и предпочтения), и по возможности использует эти знания при генерации ответов;
  • встроенный интерпретатор кода: модель сможет не только генерировать код на Python, но и показывать результат его работы, в том числе строить графики и визуализации на основе пользовательских таблиц и документов.

Подробнее о процессе обучения можно прочитать в блоге разработчиков.

Почему это важно?

Сейчас GigaChat 3 Ultra — это крупнейший LLM-проект с открытым кодом в России и Европе. Обучение модели с таким большим количеством параметров с нуля на русскоязычных данных позволит ей точнее понимать нюансы, контекст и специфику запросов, а значит и генерировать более релевантные, грамотные и стилистически выверенные ответы.