Читать нас в Telegram
Иллюстратор: Женя Родикова

SuperGLUE — усовершенствованная тестовая дорожка (т.н. бенчмарк) с более жесткими критериями, чем в предыдущем — GLUE (General Language Understanding Evaluation). Тест состоит из восьми испытаний по пониманию языка. К ним относятся ответы на логические вопросы, выявление и определение правильности гипотез. Задания выполняются на основе текстов из Википедии, Wall Street Journal и других источников.

В тестирование входят и другие задачи — определение причины или следствия из предложенных вариантов, ответ на многовариантные вопросы по тексту, понимание прочитанного с точки зрения здравого смысла, когда смысл слов передается несколькими способами, и другие. В оценку также входит прохождение конкурса Winograd Schema Challenge — задачек на разрешение местоименной анафоры, которые требуют понимания значений слов («Чемодан не влез в ящик. Он слишком большой» vs «Чемодан не влез в ящик. Он слишком маленький»).

Этой зимой нейросети от Google и Microsoft впервые выполнили набор заданий лучше, чем люди при тестовом прохождении.

DeBERTa — модель с полутора миллиардами параметров, которая обучена с помощью стандартного на сегодняшний день моделирования языка с маскированием: нейросеть обучается использовать слова вокруг замаскированного токена, чтобы понять, какое слово пропущено. Модель от Google, как можно судить из названия, комбинирует успешную нейросеть-трансформер Т5, максимальная версия которой имеет 11 миллиардов параметров, и модель Meena с 2,6 млрд параметров.

Датасет SuperGLUE содержит сравнительно сложные вопросы: например, нужно понять, употребляется ли слово board в одном и том же значении в предложениях Room and board и He nailed boards across the windows. Не каждый человек ответит на этот вопрос правильно.

Однако теперь SuperGLUE снова нужно усложнять. В исследовательском сообществе ИИ уже назревает консенсус, какими станут новые бенчмарки. Планируется, что будущие тесты будут учитывать этические, технические и социальные проблемы.

Источники