Читать нас в Telegram
Иллюстратор: Грета Исагулова

Читатели оценивают писателей: в чём проблема?

Корнелия Кулен, автор книги «Reading beyond the female: The relationship between perception of author gender and literary quality», исследует, как связана оценка литературного произведения с полом автора.

В своей книге Кулен фокусируется на оценке произведения читателями в зависимости от пола автора и реальных достоинств и недостатков текста. Она приводит данные The Riddle of Literary Quality, исследовательского проекта института истории Нидерландов и Амстердамского университета. Его цель — определить, какие факторы влияют на представление о тексте и его значимости и ценности.

Что спрашивали у читателей

В рамках проекта был проведен опрос читателей: их просили оценить роман по 7-балльной шкале и оставить краткий отзыв на одну из тех книг, которые они оценивали. В эксперименте участвовали 9791 женщина, 3897 мужчин и 96 людей, которые не раскрыли свой пол. Кулен провела регрессионный анализ результатов эксперимента. Ее интересовало, насколько точно независимые переменные — жанр, пол автора и факт перевода (переводная книга или нет) — позволяют прогнозировать зависимую, а именно рейтинг.

С помощью алгоритма множественной линейной регрессии удалось установить, что пол автора является значимым признаком: книги, написанные женщинами, получали более низкие оценки как за их литературные достоинства, так и за общее качество. Если же автором был мужчина, то рейтинг произведения увеличивался сразу на половину пункта.

Значение B — регрессионный коэффициент, который показывает здесь, насколько сильно и в какую сторону меняется оценка качества в зависимости от каждого признака. Мужское авторство дает сильную положительную прибавку к оценке (даже с учетом всех остальных показателей).

Как видно из таблицы, кроме пола автора, значимым признаком оказался и жанр произведения: например, если книга была отнесена к «большим» романам, то ее рейтинг повышался на 1.3 пункта, а если к романтической литературе — понижался на 0.5. Факт перевода оказался несущественным фактором.

Кулен задается вопросом, можно ли с помощью инструментов автоматической обработки естественного языка выявить объективную взаимосвязь пола автора и созданного им литературного произведения. Для этого был проведен ряд экспериментов.

Эксперимент 1. Бестселлеры и номинанты на премию: что волнует персонажей книг?

Первый эксперимент посвящен исследованию текстов с помощью инструмента LIWC, Linguistic Inquiry and Word Count (лингвистическое исследование и подсчет слов, ссылка на сайт проекта). Для этого было взято два набора данных: корпус проекта The Riddle и корпус Nominees, номинантов на премию для нидерландских и бельгийских писателей AKO Literatuurprijs, одну из двух ведущих литературных премий в Нидерландах, сбалансированный по количеству мужчин и женщин (24 женщины, 25 мужчин и 1 трансгендерный мужчина).

LIWC, обычно использующийся для сентимент-анализа, позволяет посчитать частоты слов из заданных списков слов (категорий) и относительную частоту этих слов для конкретного текста. Для исследования были выбраны категории разных порядков: психологические, лингвистические или личные интересы. Результаты эксперимента на корпусе the Riddle оказались схожи с распространенными гендерными стереотипами: у авторов-мужчин чаще встречаются слова, относящиеся к профессиональной деятельности, у авторов-женщин — к домашнему хозяйству, чувствам, телесности. При этом в книгах, написанных женщинами, преобладает категория «когнитивные процессы», включающая в себя слова, обозначающие мыслительную деятельность, рациональность — и это абсолютно не соответствует стереотипам. Такой результат наблюдается не только в общем корпусе, но и в таком «мужском» жанре, как детектив.

Что касается корпуса номинантов литературных премий Nominees, то перед началом исследования была выдвинута гипотеза о том, что LIWC не выявит существенных гендерных расхождений. Это должно быть связано, по мнению Кулен, с тем, что авторы обоих полов были высоко оценены литературными экспертами, при этом небольшое количество женщин-номинантов может говорить об определенной схожести их книг с книгами авторов-мужчин. И действительно, ядерная оценка плотности четырех LIWC категорий показала небольшую разницу в употреблении слов между авторами-мужчинами и женщинами.

При сравнении с результатами первой колонки — результатами анализа корпуса The Riddle — можно сделать предположение, что обилие жанров в нем и факт перевода, ранее предполагаемый не столь важным, играют большое значение.

Эксперимент 2. Машина вычисляет гендер автора

В качестве второго эксперимента была предпринята попытка анализа имеющихся корпусов с помощью методов машинного обучения. Тексты исследуемых корпусов нужно было отнести к одному из двух классов: произведения, написанные автором-мужчиной, и тексты, написанные автором-женщиной. За основу была взята идея, заключающаяся в обучении модели классификации с помощью метода опорных векторов на мешке слов (Bag-of-words, BOW) из 60% наиболее распространенных лемм в корпусе. Также была опробована модель на символьных триграмах — Char3grams. Обучение проводилось на корпусе the Riddle, а оценка модели проводилась сразу на двух корпусах: the Riddle и Nominees. Метрики качества получившихся моделей (F1) приведены в таблице:

Как и в первом эксперименте, видно, что гендерные различия текстов менее выражены во втором корпусе: на это указывает плохая F1 мера. Однако стоит отметить, что такие результаты также обусловлены несоответствием обучающего и тестового корпусов, например, присутствует смещение предсказаний классификатора в сторону авторов-мужчин:

Среди текстов, неправильно отнесенных к автору-женщине, один имеет протагониста женщину, что достаточно редко встречается у авторов-мужчин, а второй написан трансгендерным мужчиной.

Эксперимент 3. Мужские и женские темы в литературе.

Третий эксперимент заключается в проведении тематического моделирования на основе корпуса the Riddle. Для этого из лемматизированного корпуса удалили служебные слова и пунктуацию и поделили его на фрагменты в 1000 токенов. Далее с помощью латентного распределения Дирихле (LDA, мы рассказываем об этом тут) были получены 50 тем и их весá в зависимости от пола автора.

Самые существенные различия в весах подтверждают расхожие стереотипы: например, военная тема (military) превалирует у мужчин, а тема домашнего хозяйства (settling down) — у женщин. Однако это не всегда справедливо для корпуса Nominees: так, оба пола имеют одинаковые весá в теме «наряды и вечеринки» (looks & parties).
Корнелия Кулен выбрала две темы, одна из которых больше характерна для авторов-мужчин (военная тема 37 ‘militarism’), а вторая для авторов-женщин (тема 23 ‘settling down’, посвященная обыденной жизни, ее ключевыми словами являются «брак», «дом» и проч.). На примере темы 23 можно увидеть, что принадлежность текста к определенной тематической группе не всегда определяет его основную идею: эта тема встречается в 47 из 50 произведений корпуса и, в том числе и в произведениях о войне. То есть, четкого разделения на исключительно мужские или женские темы при написании романов нет.

Еще раз о результатах опроса

В результатах опроса, о котором мы упоминали в самом начале, учитывался и пол самого респондента. Оказалось, что женщины оценивают книги, написанные мужчинами выше, чем те, которые написаны женщиной, и наоборот. В целом книги, написанные мужчинами, имели более высокий рейтинг: в них оценивался чаще всего профессионализм написания и стиль, а книги, написанные женщинами, оценивались на эмоциональном уровне. Кулен также замечает, что гендерно-окрашенные выражения и прилагательные в основном используются в рецензиях на книги именно авторов-женщин. Авторов-женщин называли более пассивными, как и подобает их полу, а вот авторы мужчины считались более креативными и активными.

Возможно, именно поэтому авторам-женщинам иногда приходится подстраиваться под мужской стиль письма (мы увидели это на примере корпуса Nominees), и полноценное раскрытие женского видения мира в литературе еще не состоялось.

Источники