Google и OpenAI сообщили (анонс от Google, анонс от OpenAI) о беспрецедентных результатах своих языковых моделей на международной математической олимпиаде (IMO).
Модели обеих компаний решили пять из шести задач, что соответствует уровню золотой медали. Такую награду получают около 8% участников соревнования.
На решение задач отводилось 4,5 часа — стандартное время для всех участников. Модели использовали только естественный язык, без доступа к интернету или внешним инструментам вроде среды исполнения кода. Этот подход отличается от прошлогодней системы Google AlphaProof, которая использовала специальный формальный язык для математических рассуждений и получила серебряную медаль.
Решения модели Google проверяли судьи олимпиады по стандартным критериям. Они отметили понятность и точность представленных решений. OpenAI не проходила официальную проверку: по данным компании, решения проверили три бывших медалиста IMO.
Почему это важно?
С 2024 года компании активно развивают продвинутые математические способности языковых моделей. Ранее высокие результаты показывали только специализированные системы или модели с доступом к внешним инструментам. Теперь модели, работающие исключительно с естественным языком, достигли уровня золотой медали IMO. Это демонстрирует прогресс парадигмы «рассуждающих» LLM, которые генерируют длинные цепочки «мыслей» перед финальным ответом.