Компания OpenAI представила GDPval — новый тест для оценки способности языковых моделей выполнять экономически значимые задачи из реального мира.
OpenAI выбрала девять отраслей, каждая из которых вносит более 5% в ВВП США. Затем в каждой отрасли определили пять профессий с наибольшим вкладом в общий фонд оплаты труда, связанных преимущественно с интеллектуальным трудом. Профессия считалась «преимущественно интеллектуальной», если минимум 60% ее задач не требовали физической работы.
В итоге в тест вошли 44 профессии. Для каждой специалисты со средним опытом работы 14 лет создали по 30 задач, отражающих реальные рабочие задачи — от юридических заключений до инженерных чертежей и планов медицинского ухода. Каждая задача прошла в среднем пять раундов экспертной проверки. Открытая версия включает 220 задач (по пять на профессию).
Результаты оценивали эксперты из соответствующих профессий в слепом формате — они сравнивали работу моделей с работой людей, не зная, кто автор. Эксперты ранжировали решения и классифицировали их как «лучше», «на том же уровне» или «хуже» человеческих. Также была обучена автоматизированная модель-оценщик, которая предсказывает суждения экспертов, но ее пока не используют вместо людей из-за недостаточной точности.
В тестировании участвовали несколько моделей OpenAI, Claude Opus 4.1, Gemini 2.5 Pro и Grok 4. Claude Opus 4.1 показала лучший результат (в 43,5% модель оказалась лучше эксперта, еще в 4% — на уровне экспертов), особенно в эстетических аспектах вроде форматирования документов, а GPT-5 отличилась в точности поиска специализированных знаний. При этом производительность более чем удвоилась от GPT-4o (весна 2024) до GPT-5 (лето 2025).
Модели выполняют задачи GDPval примерно в 100 раз быстрее и дешевле экспертов, однако эти цифры не учитывают человеческий контроль и итерации, необходимые в реальных рабочих условиях.
Почему это важно?
Большинство существующих тестов для языковых моделей проверяют академические способности или производительность в узких областях вроде математики и олимпиадного программирования. Поэтому их результаты плохо отражают реальную пользу ИИ в практических задачах. Несмотря на это, в общественной дискуссии активно обсуждается вероятность замены человеческого труда искусственным интеллектом.
GDPval призван тестировать модели на репрезентативных задачах из реальной жизни, чтобы оценить экономический потенциал ИИ и возможные тренды автоматизации труда в будущем.