Нейросети обошли человека в понимании текста

Языковые модели от Google и Microsoft — T5 + Meena и DeBERTa — показали себя лучше человека в тесте SuperGLUE, который проверяет понимание и логику текста на английском языке

16.06.2021

Иллюстратор: Женя Родикова

SuperGLUE — усовершенствованная тестовая дорожка (т.н. бенчмарк) с более жесткими критериями, чем в предыдущем — GLUE (General Language Understanding Evaluation). Тест состоит из восьми испытаний по пониманию языка. К ним относятся ответы на логические вопросы, выявление и определение правильности гипотез. Задания выполняются на основе текстов из Википедии, Wall Street Journal и других источников.

В тестирование входят и другие задачи — определение причины или следствия из предложенных вариантов, ответ на многовариантные вопросы по тексту, понимание прочитанного с точки зрения здравого смысла, когда смысл слов передается несколькими способами, и другие. В оценку также входит прохождение конкурса Winograd Schema Challenge — задачек на разрешение местоименной анафоры, которые требуют понимания значений слов («Чемодан не влез в ящик. Он слишком большой» vs «Чемодан не влез в ящик. Он слишком маленький»).

Этой зимой нейросети от Google и Microsoft впервые выполнили набор заданий лучше, чем люди при тестовом прохождении.

DeBERTa — модель с полутора миллиардами параметров, которая обучена с помощью стандартного на сегодняшний день моделирования языка с маскированием: нейросеть обучается использовать слова вокруг замаскированного токена, чтобы понять, какое слово пропущено. Модель от Google, как можно судить из названия, комбинирует успешную нейросеть-трансформер Т5, максимальная версия которой имеет 11 миллиардов параметров, и модель Meena с 2,6 млрд параметров.

Датасет SuperGLUE содержит сравнительно сложные вопросы: например, нужно понять, употребляется ли слово board в одном и том же значении в предложениях Room and board и He nailed boards across the windows. Не каждый человек ответит на этот вопрос правильно.

Однако теперь SuperGLUE снова нужно усложнять. В исследовательском сообществе ИИ уже назревает консенсус, какими станут новые бенчмарки. Планируется, что будущие тесты будут учитывать этические, технические и социальные проблемы.

Источники

Автор: Мария Адзхед

Редактор: Лола Самеева

Иллюстратор: Евгения Родикова

Теги:модели ии

Next Люди не смогут управлять сверхразумными машинами »

Previous « Transkribus: как компьютерное зрение помогает переводить тексты сирийских мистиков

Tags: модели ии

16.06.2021

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

США усилили контроль над лидирующими ИИ моделями, ученые смогли полностью прочитать античный свиток, не разворачивая его — что произошло в…

06.07.2026

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Агенты, которые самостоятельно планируют свои действия и пользуются внешними инструментами. Модели, способные работать с миллионами токенов. Системы, которые помогают сохранять…

02.07.2026

Новости

Национальный корпус русского языка вырос в шесть раз

Теперь в него входят тексты ВКонтакте — почти 11,3 млрд слов из соцсетей

30.06.2026

Нейросети обошли человека в понимании текста

Источники

Related Post

Recent Posts

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Национальный корпус русского языка вырос в шесть раз