Нейросети Google и OpenAI победили в олимпиаде
Google и OpenAI сообщили (анонс от Google, анонс от OpenAI) о беспрецедентных результатах своих языковых моделей на международной математической олимпиаде (IMO).
Модели обеих компаний решили пять из шести задач, что соответствует уровню золотой медали. Такую награду получают около 8% участников соревнования.
На решение задач отводилось 4,5 часа — стандартное время для всех участников. Модели использовали только естественный язык, без доступа к интернету или внешним инструментам вроде среды исполнения кода. Этот подход отличается от прошлогодней системы Google AlphaProof, которая использовала специальный формальный язык для математических рассуждений и получила серебряную медаль.
Решения модели Google проверяли судьи олимпиады по стандартным критериям. Они отметили понятность и точность представленных решений. OpenAI не проходила официальную проверку: по данным компании, решения проверили три бывших медалиста IMO.
Почему это важно?
С 2024 года компании активно развивают продвинутые математические способности языковых моделей. Ранее высокие результаты показывали только специализированные системы или модели с доступом к внешним инструментам. Теперь модели, работающие исключительно с естественным языком, достигли уровня золотой медали IMO. Это демонстрирует прогресс парадигмы «рассуждающих» LLM, которые генерируют длинные цепочки «мыслей» перед финальным ответом.
Обновления Qwen3
Китайский холдинг Alibaba Group представил несколько обновленных языковых моделей Qwen3.
В предыдущих версиях Qwen3 использовался гибридный подход — можно было вручную указывать, нужны ли длинные рассуждения перед ответом или требуется мгновенный отклик. Однако объединение этих режимов в одной модели негативно сказалось на качестве ответов.
Поэтому разработчики создали отдельные версии для каждого режима. Обновленные пары (для быстрых ответов и для ответов с рассуждениями) представлены в двух вариантах: 30 млрд параметров (3 млрд активных при генерации) и 235 млрд параметров (22 млрд активных).
Новые LLM значительно превосходят гибридные версии во всех тестах. Большая версия лишь незначительно уступает коммерческим решениям Google и OpenAI. Все обновленные модели размещены на HuggingFace под лицензией, разрешающей коммерческое использование.
Кроме того, выпущены две специализированные версии Qwen. Первая предназначена для машинного перевода — она превосходит GPT-4.1 и Gemini 2.5 Pro по качеству и скорости перевода, но доступна только через API. Вторая специализируется на программировании и не уступает лидеру в этой области — Claude Sonnet 4 от Anthropic. Веса модели доступны для всех желающих.
Почему это важно?
Линейка Qwen входит в число лучших открытых LLM на рынке. Ее выделяет большая широта: модели общего назначения представлены в различных размерах, что делает их подходящими как для локального использования обычными пользователями, так и для развертывания на мощных корпоративных серверах. Многие академические исследователи выбирают Qwen в качестве базы для проверки своих гипотез.