Он сказал, Она сказала: Рассмотрение гендера в нейронном машинном переводе

Технология искусственного интеллекта столкнулась с довольно деликатным вопросом гендерных предубеждений. Помощник в Google Mail не будет предлагать гендерные местоимения, чтобы избежать автозаполнения предложения неправильным полом. Функция Smart Compose («Умный ввод») будет избегать таких подсказок, потому что, как выразился менеджер продукта Gmail Пол Ламберт, «не все ошибки равны. Гендер — очень серьезная штука». Сервис Google Translate, который теперь в основном работает на нейронном машинном переводе (НМП), тоже недавно рассмотрел вопрос о гендерных предубеждениях.

Он — доктор, Она — медсестра

6 декабря 2018 года Google опубликовал в своем блоге первое сообщение о своих усилиях по сокращению гендерных предубеждений в своем переводчике. Через несколько дней, 10 декабря, блог Google AI предоставил более подробную информацию.

Ранее для подобных запросов сервис Google Translate предлагал вариант перевода, основанный на гендерно предвзятых данных для машинного обучения. Это значит, что получившиеся переводы, как правило, склонны к мужским местоимениям для таких слов, как «сильный» или «доктор», и к женским — для «красивая» или «медсестра».

В качестве решения данной проблемы Google обновил свою систему перевода, чтобы при запросе перевода слова с английского на французский, итальянский, португальский или испанский отображались как мужские, так и женские местоимения. То же самое относится к переводам фраз с турецкого на английский, где язык оригинала является нейтральным с гендерной точки зрения.

Длинные фразы или полные предложения, тем временем, требуют более сложного процесса. Настолько сложного, что Google был вынужден внести «существенные изменения» в свою структуру перевода. Гендерно-нейтральные фразы или предложения идентифицируются с помощью нового процесса машинного самообучения, в то время как мужские и женские местоимения требуют на два шага больше: добавление гендерных признаков к данным для машинного обучения и фильтрация отклоненных предложений перевода.

Google утверждает, что новая система NMT (нейронный машинный перевод, НМП) способна «достоверно переводить женские и мужские местоимения в 99 % случаев».

Не существует решения, которое подходит всем

Ева Ванмассенхов, аспирант Городского университета Дублина и член команды Центра адаптации, отметила некоторые недостатки в подходе Google.

«Проблематичен не перевод с [вышеупомянутых] языков на английский, а как раз наоборот. Различные языки имеют различные способы выражения пола, и важно понимать, что не существует решения, которое подходит всем», — заявила Ванмассенхов компании Slator.

Ванмассенхов активно занимается исследованиями в области машинного перевода с 2015 года и ранее изучала гендерные проблемы перевода. Она подчеркнула:

«Даже контекстно-ориентированные системы НМП, которые могут учитывать некоторый контекст при переводе, столкнутся с трудностями при понимании таких вещей, как точное (межжанровое) прогнозирование гендеров. Особенно в языках, которые не выделяют пол однозначно (например, английский), и это остается нерешенной задачей.»

По словам Ванмассенхов, ограниченный языковой охват означает, что на французском и испанском языках, например, «Я — медсестра» по-прежнему будет переводиться в женском лице, в то время как «Я — хирург» — в мужском. Еще более проблематичным является следующий набор переводов: «Я прекрасен» переводится на испанский язык в мужском роде. Однако, по словам Ванмассенхов, «Я прекрасный хирург» переводится в женском.

Ванмассенхов добавляет, что сила нейронных сетей в изучении паттернов и ассоциаций также оказывается и слабостью. Ошибки и предубеждения подобного характера особенно трудно заметить и исправить.

Однако Ванмассенхов уточнила, что сообщение в блоге Google указывает на то, что они находятся на первом этапе снижения гендерных предубеждения в машинном переводе.

Преувеличение предубеждений

Затрагивая более широкие последствия проблемы гендерного перевода, Ванмассенхов сказала, что недавние исследования «показывают, что нейронные модели не просто отражают спорные социальные асимметрии, но и „преувеличивают“ их — я могу представить ситуации, когда такие отклонения могут иметь негативное влияние на определенные группы людей».

Она привела такой пример:

«Допустим, поисковая система или алгоритм выбора использует систему МТ изнутри. Как мы можем быть уверены, что не исключаем множество действительно хороших кандидатур только потому, что гендерно-нейтральный термин переводится с одного языка на другой только как мужской или только как женский вариант?»

Первоначальное решение Google не только ограничено лингвистическим охватом, но и учитывает гендерные предубеждения только в данных для машинного обучения.

«Я считаю, что устранение предубеждений [в данных для машинного обучения] имеет свою ценность. Однако поскольку предубеждения могут проявляться на многих уровнях (пол, раса, возраст, меньшинства), я не могу не задаться вопросом, как мы будем устранять все возможные предубеждения на практике», — сказала Ванмассенхов.

Она рассказала о некоторых трудностях на ее собственной работе из-за подобных проблем.

«Для магистерской диссертации я работала над объединением голландских слов. Я помню, что мне было стыдно предоставить результаты моих методов кластеризации, поскольку некоторые из полученных кластеров были просто расистскими, особенно по отношению к некоторым группам в Бельгии и Нидерландах. Ограничить дело по устранению предубеждений простым стиранием „пола“ может оказаться недостаточным».

Она пришла к выводу, что предубеждения, включая пол, являются «существенными проблемами», потому что не сразу понятно, как алгоритмы MT обрабатывают их. Они часто остаются незамеченными, потому что «нейронные алгоритмы очень хороши в представлении того, что, по их мнению, мы хотим видеть».

«Стирание гендерных предубеждений является хорошей отправной точкой, но необходимо принять дополнительные меры для надлежащего решения аналогичных проблем», — сказала она.

Материал подготовлен совместно с группой переводческих компаний AKM Translations (www.akmw.ru)

Источник: Gino Diño, He Said, She Said: Addressing Gender in Neural Machine Translation

Автор: Системный Блокъ

Теги:NLP, гендер, машинный перевод, Этика искусственного интеллекта

Он сказал, Она сказала: Рассмотрение гендера в нейронном машинном переводе

Он — доктор, Она — медсестра

Не существует решения, которое подходит всем

Преувеличение предубеждений

О проекте

СОЦСЕТИ

Рассылка

Теги

Темы

Он сказал, Она сказала: Рассмотрение гендера в нейронном машинном переводе

Он — доктор, Она — медсестра

Не существует решения, которое подходит всем

Преувеличение предубеждений

Читать по теме:

Новая модель для дизайна белков, скорый выход самой большой LLama и FlashAttention 3

Новый лидер среди LLM, «безопасный сверхинтеллект» от бывшего топ-исследователя OpenAI и конкуренты Sora

О проекте

СОЦСЕТИ

Рассылка

Теги

Темы