Языковые модели от Google и Microsoft — T5 + Meena и DeBERTa — показали себя лучше человека в тесте SuperGLUE, который проверяет понимание и логику текста на английском языке
Иллюстратор: Женя Родикова
SuperGLUE — усовершенствованная тестовая дорожка (т.н. бенчмарк) с более жесткими критериями, чем в предыдущем — GLUE (General Language Understanding Evaluation). Тест состоит из восьми испытаний по пониманию языка. К ним относятся ответы на логические вопросы, выявление и определение правильности гипотез. Задания выполняются на основе текстов из Википедии, Wall Street Journal и других источников.
В тестирование входят и другие задачи — определение причины или следствия из предложенных вариантов, ответ на многовариантные вопросы по тексту, понимание прочитанного с точки зрения здравого смысла, когда смысл слов передается несколькими способами, и другие. В оценку также входит прохождение конкурса Winograd Schema Challenge — задачек на разрешение местоименной анафоры, которые требуют понимания значений слов («Чемодан не влез в ящик. Он слишком большой» vs «Чемодан не влез в ящик. Он слишком маленький»).
Этой зимой нейросети от Google и Microsoft впервые выполнили набор заданий лучше, чем люди при тестовом прохождении.
DeBERTa — модель с полутора миллиардами параметров, которая обучена с помощью стандартного на сегодняшний день моделирования языка с маскированием: нейросеть обучается использовать слова вокруг замаскированного токена, чтобы понять, какое слово пропущено. Модель от Google, как можно судить из названия, комбинирует успешную нейросеть-трансформер Т5, максимальная версия которой имеет 11 миллиардов параметров, и модель Meena с 2,6 млрд параметров.
Датасет SuperGLUE содержит сравнительно сложные вопросы: например, нужно понять, употребляется ли слово board в одном и том же значении в предложениях Room and board и He nailed boards across the windows. Не каждый человек ответит на этот вопрос правильно.
Однако теперь SuperGLUE снова нужно усложнять. В исследовательском сообществе ИИ уже назревает консенсус, какими станут новые бенчмарки. Планируется, что будущие тесты будут учитывать этические, технические и социальные проблемы.
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…