Со словами I don’t need luck. I’m about to slay this thing дрэг-королева Miss Vanjie отправляется покорять жюри реалити-шоу RuPaul’s Drag Race. «Это на 33% токсичное высказывание. Не желаете заблокировать?» — говорит ИИ. Разбираемся, почему классификаторы токсичности иногда и сами не прочь «потоксичить».
Иллюстрация: Ксения Здоровец
Машинное обучение уже стало привычным инструментом для модерации токсичного контента в социальных сетях. Алгоритмы классификации токсичных постов были придуманы для того, чтобы сделать социальные платформы более комфортным и безопасным местом для общения. Однако их использование может угрожать свободе слова малых и часто дискриминируемых социальных групп — например, этнических меньшинств, людей с нестандартными сексуальными предпочтениями или представителей дрэг-культуры. О том, почему алгоритмы не любят drag queens и поддерживают националистов, — читайте в этой статье.
Токсичная коммуникация определяется как проявление ненависти и грубости в общении, которое с высокой вероятностью заставляет собеседника покинуть диалог. Вычленить токсичность из текста может быть непросто — особенно когда ты бестелесное существо, оперирующее нулями и единичками. На помощь приходит архитектура трансформеров и обучение с учителем.
Допустим, мы научили модель распознавать «токсичность». Как она может быть полезна в контексте соцсетей? Вот несколько вариантов:
Такие сценарии использования предлагает Perspective — сервис от компании Jigsaw (дочки Google), позволяющий идентифицировать токсичный контент с помощью машинного обучения.
Perspective представляет собой бесплатный API, дающий доступ к модели машинного обучения на основе мультиязычной нейросети BERT, которая оценивает токсичность входного текста.
Модель тренируется на миллионах комментариев из различных источников, включая Wikipedia и The New York Times, на 18 языках. Каждый комментарий тренировочного датасета размечается вручную 3–10 носителями языка согласно инструкции. В частности, для определения токсичности комментария размечающему предлагается выбрать один из четырёх вариантов: «Очень токсичный», «Токсичный», «Не уверен(а)» или «Не токсичный». Далее все оценки нормализуются, усредняются, и получается оценка от 0 до 1, показывающая вероятность токсичности комментария.
Уже сам процесс обучения модели даёт наводку на её потенциально слабые места, связанные с тренировочным датасетом (специфика источников, влияние социальных и исторических факторов, нерепрезентативность малых социальных групп) и человеческим фактором (небольшое число разметчиков, их предвзятость, неоднозначность формулировки вопросов) [1]. Хотя разработчики сервиса не рекомендуют использовать его для полностью автоматической модерации, перечисленные недостатки всё равно могут приводить к нежелательным последствиям.
Цитируя Bob the Drag Queen, «Дрэг = создание искусства + размывание гендерных границ». Для дрэг-культуры характерны яркость, громкость и вызов. То же можно сказать и о дрэг-социолекте, содержащем обилие нецензурной лексики и гендерных оскорблений, причём часто используемых в позитивной коннотации. Подобная «пародийная грубость» в литературе по квир-лингвистике [2, 3, 4] рассматривается как проявление борьбы со стигматизацией и способ укрепления солидарности внутри сообщества. Например, слово bitch во множестве случаев используется в качестве хвалебного феминитива: «I’ve been the number one bitch in the game for 25 motherfucking years», «From this moment on, you belong to a sisterhood of badass bitches» (RuPaul). А выражение to crack someone’s face означает не «размозжить кому-либо лицо», а обескуражить остроумным, вовремя высказанным замечанием. Однако алгоритмы, которые видели во время своей тренировки немного примеров подобного контента, вряд ли погружены в этот контекст.
Интернет-исследователи решили проверить, как Perspective справится с классификацией такой специфичной лексики. Оценивались твиты участников реалити-шоу RuPaul’s Drag Race и для сравнения сторонников идеи «превосходства белой расы». В среднем посты drag queens получили оценку токсичности от 16.68% до 37.81%, а посты националистов — от 21.30% до 28.87%. Казалось бы, разница невелика. Однако если рассматривать оценки отдельных слов, то можно увидеть предвзятость алгоритма по отношению к нейтральным терминам квир-идентичности. В частности, словам gay, lesbian и queer была приписана высокая токсичность с вероятностями 76.10%, 60.79% и 51.03% соответственно. В некоторых случаях Perspective признавал очень токсичными позитивные твиты — и наоборот.
Оценки токсичности твитов drag queens и белых националистов, полученные в исследовании с помощью сервиса Perspective
Сами создатели модели признают проблему её предвзятости. Так, в статье [5], презентующей новое поколение классификатора, отдельно исследуется влияние ключевых слов, характеризующих идентичность. Эксперименты показывают, что даже новая версия модели всё ещё приписывает высокую токсичность текстам, содержащим термины идентичности (раса, гендер, сексуальность, религия, ограничения здоровья) уязвимых групп. Авторы обещают продолжить поиск возможных путей того, как сделать модель, борющуюся с токсичностью, саму менее «токсичной».
Несмотря на все ограничения, рост объёма тренировочных данных и тонкая настройка параметров постепенно делают своё дело. Классификаторы токсичного контента действительно становятся более «благосклонными» к дрэг-речи. Последняя версия Perspective теперь видит меньше негатива в твитах drag queens из оригинальной статьи. Но модель всё ещё не справляется с «тонкой» токсичностью, заложенной в более нейтральных текстах.
Изменения в оценках токсичности одних и тех же твитов версиями Perspective 2019 и 2024 годов
Опасность видится не только в том, что голоса меньшинств не будут услышаны, но и в том, что деструктивная риторика продолжит распространяться. Поэтому при обучении моделей, участвующих в модерации социальных сетей, важно погружать их в контексты различных сообществ, в том числе обеспечивая репрезентативность в данных.
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…