Читать нас в Telegram

Google и OpenAI сообщили (анонс от Googleанонс от OpenAI) о беспрецедентных результатах своих языковых моделей на международной математической олимпиаде (IMO).

Модели обеих компаний решили пять из шести задач, что соответствует уровню золотой медали. Такую награду получают около 8% участников соревнования.

На решение задач отводилось 4,5 часа — стандартное время для всех участников. Модели использовали только естественный язык, без доступа к интернету или внешним инструментам вроде среды исполнения кода. Этот подход отличается от прошлогодней системы Google AlphaProof, которая использовала специальный формальный язык для математических рассуждений и получила серебряную медаль.

Решения модели Google проверяли судьи олимпиады по стандартным критериям. Они отметили понятность и точность представленных решений. OpenAI не проходила официальную проверку: по данным компании, решения проверили три бывших медалиста IMO.

Почему это важно?

С 2024 года компании активно развивают продвинутые математические способности языковых моделей. Ранее высокие результаты показывали только специализированные системы или модели с доступом к внешним инструментам. Теперь модели, работающие исключительно с естественным языком, достигли уровня золотой медали IMO. Это демонстрирует прогресс парадигмы «рассуждающих» LLM, которые генерируют длинные цепочки «мыслей» перед финальным ответом.