OpenAI протестировала ИИ на задачах из 44 профессий

Тест GDPval показал, что модели решают рабочие задачи быстрее и дешевле людей — и иногда качественнее.

12.10.2025

Компания OpenAI представила GDPval — новый тест для оценки способности языковых моделей выполнять экономически значимые задачи из реального мира.

OpenAI выбрала девять отраслей, каждая из которых вносит более 5% в ВВП США. Затем в каждой отрасли определили пять профессий с наибольшим вкладом в общий фонд оплаты труда, связанных преимущественно с интеллектуальным трудом. Профессия считалась «‎преимущественно интеллектуальной», если минимум 60% ее задач не требовали физической работы.

В итоге в тест вошли 44 профессии. Для каждой специалисты со средним опытом работы 14 лет создали по 30 задач, отражающих реальные рабочие задачи — от юридических заключений до инженерных чертежей и планов медицинского ухода. Каждая задача прошла в среднем пять раундов экспертной проверки. Открытая версия включает 220 задач (по пять на профессию).

Результаты оценивали эксперты из соответствующих профессий в слепом формате — они сравнивали работу моделей с работой людей, не зная, кто автор. Эксперты ранжировали решения и классифицировали их как «‎лучше», «‎на том же уровне» или «‎хуже» человеческих. Также была обучена автоматизированная модель-оценщик, которая предсказывает суждения экспертов, но ее пока не используют вместо людей из-за недостаточной точности.

В тестировании участвовали несколько моделей OpenAI, Claude Opus 4.1, Gemini 2.5 Pro и Grok 4. Claude Opus 4.1 показала лучший результат (в 43,5% модель оказалась лучше эксперта, еще в 4% — на уровне экспертов), особенно в эстетических аспектах вроде форматирования документов, а GPT-5 отличилась в точности поиска специализированных знаний. При этом производительность более чем удвоилась от GPT-4o (весна 2024) до GPT-5 (лето 2025).

Модели выполняют задачи GDPval примерно в 100 раз быстрее и дешевле экспертов, однако эти цифры не учитывают человеческий контроль и итерации, необходимые в реальных рабочих условиях.

Почему это важно?

Большинство существующих тестов для языковых моделей проверяют академические способности или производительность в узких областях вроде математики и олимпиадного программирования. Поэтому их результаты плохо отражают реальную пользу ИИ в практических задачах. Несмотря на это, в общественной дискуссии активно обсуждается вероятность замены человеческого труда искусственным интеллектом.

GDPval призван тестировать модели на репрезентативных задачах из реальной жизни, чтобы оценить экономический потенциал ИИ и возможные тренды автоматизации труда в будущем.

Автор: Михаил Ким

Теги:ИИ, нейронные сети, нейросети, новости

Next UNESCO открыла виртуальный музей украденных артефактов »

Previous « Anthropic представила Claude Sonnet 4.5 — автономного ИИ-агента

Tags: ИИнейронные сетинейросетиновости

12.10.2025

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

США усилили контроль над лидирующими ИИ моделями, ученые смогли полностью прочитать античный свиток, не разворачивая его — что произошло в…

06.07.2026

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Агенты, которые самостоятельно планируют свои действия и пользуются внешними инструментами. Модели, способные работать с миллионами токенов. Системы, которые помогают сохранять…

02.07.2026

Новости

Национальный корпус русского языка вырос в шесть раз

Теперь в него входят тексты ВКонтакте — почти 11,3 млрд слов из соцсетей

30.06.2026

OpenAI протестировала ИИ на задачах из 44 профессий

Related Post

Recent Posts

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Национальный корпус русского языка вырос в шесть раз