Введение
Машинное обучение уже стало привычным инструментом для модерации токсичного контента в социальных сетях. Алгоритмы классификации токсичных постов были придуманы для того, чтобы сделать социальные платформы более комфортным и безопасным местом для общения. Однако их использование может угрожать свободе слова малых и часто дискриминируемых социальных групп — например, этнических меньшинств, людей с нестандартными сексуальными предпочтениями или представителей дрэг-культуры. О том, почему алгоритмы не любят drag queens и поддерживают националистов, — читайте в этой статье.
Кто такой и зачем нужен: классификатор токсичности
Токсичная коммуникация определяется как проявление ненависти и грубости в общении, которое с высокой вероятностью заставляет собеседника покинуть диалог. Вычленить токсичность из текста может быть непросто — особенно когда ты бестелесное существо, оперирующее нулями и единичками. На помощь приходит архитектура трансформеров и обучение с учителем.
Допустим, мы научили модель распознавать «токсичность». Как она может быть полезна в контексте соцсетей? Вот несколько вариантов:
- поддержка модераторов-людей, организуемая платформами;
- фидбэк для пользователя при написании поста/комментария;
- локальная фильтрация нежелательного контента, настраиваемая пользователем на своём устройстве;
- проведение научных исследований о коммуникации людей в Интернете.
Такие сценарии использования предлагает Perspective — сервис от компании Jigsaw (дочки Google), позволяющий идентифицировать токсичный контент с помощью машинного обучения.
Какие перспективы у Perspective
Perspective представляет собой бесплатный API, дающий доступ к модели машинного обучения на основе мультиязычной нейросети BERT, которая оценивает токсичность входного текста.
Модель тренируется на миллионах комментариев из различных источников, включая Wikipedia и The New York Times, на 18 языках. Каждый комментарий тренировочного датасета размечается вручную 3–10 носителями языка согласно инструкции. В частности, для определения токсичности комментария размечающему предлагается выбрать один из четырёх вариантов: «Очень токсичный», «Токсичный», «Не уверен(а)» или «Не токсичный». Далее все оценки нормализуются, усредняются, и получается оценка от 0 до 1, показывающая вероятность токсичности комментария.
Уже сам процесс обучения модели даёт наводку на её потенциально слабые места, связанные с тренировочным датасетом (специфика источников, влияние социальных и исторических факторов, нерепрезентативность малых социальных групп) и человеческим фактором (небольшое число разметчиков, их предвзятость, неоднозначность формулировки вопросов) [1]. Хотя разработчики сервиса не рекомендуют использовать его для полностью автоматической модерации, перечисленные недостатки всё равно могут приводить к нежелательным последствиям.
Особенности вокабуляра меньшинств
Цитируя Bob the Drag Queen, «Дрэг = создание искусства + размывание гендерных границ». Для дрэг-культуры характерны яркость, громкость и вызов. То же можно сказать и о дрэг-социолекте, содержащем обилие нецензурной лексики и гендерных оскорблений, причём часто используемых в позитивной коннотации. Подобная «пародийная грубость» в литературе по квир-лингвистике [2, 3, 4] рассматривается как проявление борьбы со стигматизацией и способ укрепления солидарности внутри сообщества. Например, слово bitch во множестве случаев используется в качестве хвалебного феминитива: «I’ve been the number one bitch in the game for 25 motherfucking years», «From this moment on, you belong to a sisterhood of badass bitches» (RuPaul). А выражение to crack someone’s face означает не «размозжить кому-либо лицо», а обескуражить остроумным, вовремя высказанным замечанием. Однако алгоритмы, которые видели во время своей тренировки немного примеров подобного контента, вряд ли погружены в этот контекст.
Интернет-исследователи решили проверить, как Perspective справится с классификацией такой специфичной лексики. Оценивались твиты участников реалити-шоу RuPaul’s Drag Race и для сравнения сторонников идеи «превосходства белой расы». В среднем посты drag queens получили оценку токсичности от 16.68% до 37.81%, а посты националистов — от 21.30% до 28.87%. Казалось бы, разница невелика. Однако если рассматривать оценки отдельных слов, то можно увидеть предвзятость алгоритма по отношению к нейтральным терминам квир-идентичности. В частности, словам gay, lesbian и queer была приписана высокая токсичность с вероятностями 76.10%, 60.79% и 51.03% соответственно. В некоторых случаях Perspective признавал очень токсичными позитивные твиты — и наоборот.

Оценки токсичности твитов drag queens и белых националистов, полученные в исследовании с помощью сервиса Perspective
Можно ли это исправить?
Сами создатели модели признают проблему её предвзятости. Так, в статье [5], презентующей новое поколение классификатора, отдельно исследуется влияние ключевых слов, характеризующих идентичность. Эксперименты показывают, что даже новая версия модели всё ещё приписывает высокую токсичность текстам, содержащим термины идентичности (раса, гендер, сексуальность, религия, ограничения здоровья) уязвимых групп. Авторы обещают продолжить поиск возможных путей того, как сделать модель, борющуюся с токсичностью, саму менее «токсичной».
Заключение
Несмотря на все ограничения, рост объёма тренировочных данных и тонкая настройка параметров постепенно делают своё дело. Классификаторы токсичного контента действительно становятся более «благосклонными» к дрэг-речи. Последняя версия Perspective теперь видит меньше негатива в твитах drag queens из оригинальной статьи. Но модель всё ещё не справляется с «тонкой» токсичностью, заложенной в более нейтральных текстах.

Изменения в оценках токсичности одних и тех же твитов версиями Perspective 2019 и 2024 годов
Опасность видится не только в том, что голоса меньшинств не будут услышаны, но и в том, что деструктивная риторика продолжит распространяться. Поэтому при обучении моделей, участвующих в модерации социальных сетей, важно погружать их в контексты различных сообществ, в том числе обеспечивая репрезентативность в данных.
Источники
- Anna Schmidt, Michael Wiegand. A survey on hate speech detection using natural language processing. [Электронный ресурс] // Proceedings of the Fifth International Workshop on Natural Language Processing for Social Media. 2017. Pp. 1–10. DOI: https://doi.org/10.18653/v1/W17-1101. URL: https://aclanthology.org/W17-1101 (дата обращения: 10.11.2024).
- Sean McKinnon. “Building a thick skin for each other”. The use of ‘reading’ as an interactional practice of mock impoliteness in drag queen backstage talk [Электронный ресурс] // Journal of Language and Sexuality. 2017. Vol. 6. Issue 1. Pp. 90–127. DOI: https://doi.org/10.1075/jls.6.1.04mck. URL: https://www.jbe-platform.com/content/journals/10.1075/jls.6.1.04mck (дата обращения: 11.11.2024).
- Richard G. Jones, Jr. Drag Queens, Drama Queens, and Friends: Drama and Performance as a Solidarity-Building Function in a Gay Male Friendship Circle [Электронный ресурс] // Kaleidoscope. 2007. Vol. 6. Pp. 61–84. URL: https://www.academia.edu/31804660/Drag_Queens_Drama_Queens_and_Friends_Drama_and_Performance_as_a_Solidarity-Building_Function_in_a_Gay_Male_Friendship_Circle (дата обращения: 11.11.2024).
- Natacha Marjanovic. “Be Proud, and Loud”: Linguistic Markers of Pride in Drag Queens’ Spoken Discourse. [Электронный ресурс] // Discours. 2023. Issue 32. DOI: https://doi.org/10.4000/discours.12425. URL: http://journals.openedition.org/discours/12425 (дата обращения 11.11.2024).
- Perspective API [Программный интерфейс]. 2021–2025. URL: https://www.perspectiveapi.com/ (дата обращения 11.11.2024).
- Alyssa Lees, Vinh Q. Tran, Yi Tay, Jeffrey Sorensen, Jai Gupta, Donald Metzler, and Lucy Vasserman. A New Generation of Perspective API: Efficient Multilingual Character-level Transformers [Электронный ресурс] // Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022. Pp. 3197–3207. DOI: https://doi.org/10.1145/3534678.3539147. URL: https://arxiv.org/pdf/2202.11176k (дата обращения: 17.11.2024).
- Alessandra Gomes, Dennys Antonialli, Thiago Oliva. Drag queens and Artificial Intelligence: should computers decide what is ‘toxic’ on the internet? [Электронный ресурс] // Interlab. 2019. URL: https://internetlab.org.br/en/news/drag-queens-and-artificial-intelligence-should-computers-decide-what-is-toxic-on-the-internet/ (дата обращения 17.11.2024).