Новости

OpenAI протестировала ИИ на задачах из 44 профессий

Тест GDPval показал, что модели решают рабочие задачи быстрее и дешевле людей — и иногда качественнее.

Компания OpenAI представила GDPval — новый тест для оценки способности языковых моделей выполнять экономически значимые задачи из реального мира.

OpenAI выбрала девять отраслей, каждая из которых вносит более 5% в ВВП США. Затем в каждой отрасли определили пять профессий с наибольшим вкладом в общий фонд оплаты труда, связанных преимущественно с интеллектуальным трудом. Профессия считалась «‎преимущественно интеллектуальной», если минимум 60% ее задач не требовали физической работы.

В итоге в тест вошли 44 профессии. Для каждой специалисты со средним опытом работы 14 лет создали по 30 задач, отражающих реальные рабочие задачи — от юридических заключений до инженерных чертежей и планов медицинского ухода. Каждая задача прошла в среднем пять раундов экспертной проверки. Открытая версия включает 220 задач (по пять на профессию).

Результаты оценивали эксперты из соответствующих профессий в слепом формате — они сравнивали работу моделей с работой людей, не зная, кто автор. Эксперты ранжировали решения и классифицировали их как «‎лучше», «‎на том же уровне» или «‎хуже» человеческих. Также была обучена автоматизированная модель-оценщик, которая предсказывает суждения экспертов, но ее пока не используют вместо людей из-за недостаточной точности.

В тестировании участвовали несколько моделей OpenAI, Claude Opus 4.1, Gemini 2.5 Pro и Grok 4. Claude Opus 4.1 показала лучший результат (в 43,5% модель оказалась лучше эксперта, еще в 4% — на уровне экспертов), особенно в эстетических аспектах вроде форматирования документов, а GPT-5 отличилась в точности поиска специализированных знаний. При этом производительность более чем удвоилась от GPT-4o (весна 2024) до GPT-5 (лето 2025).

Модели выполняют задачи GDPval примерно в 100 раз быстрее и дешевле экспертов, однако эти цифры не учитывают человеческий контроль и итерации, необходимые в реальных рабочих условиях.

Почему это важно?

Большинство существующих тестов для языковых моделей проверяют академические способности или производительность в узких областях вроде математики и олимпиадного программирования. Поэтому их результаты плохо отражают реальную пользу ИИ в практических задачах. Несмотря на это, в общественной дискуссии активно обсуждается вероятность замены человеческого труда искусственным интеллектом.

GDPval призван тестировать модели на репрезентативных задачах из реальной жизни, чтобы оценить экономический потенциал ИИ и возможные тренды автоматизации труда в будущем.

Share

Recent Posts

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время

25.05.2026

ИИ найдет «скрытых» детей в соцсетях по костям лица

Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст

19.05.2026

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…

19.05.2026