Американские исследователи Тед Андервуд, Дэвид Бамман и Сабрина Ли написали статью об английских романах последних трех веков. С помощью графиков и статистики исследователи показали, что происходит с репрезентацией женщин и мужчин в английской литературе.
Авторы проанализировали описания персонажей в коллекции из 104 000 книг, используя алгоритм BookNLP. Он умеет обнаруживать упоминания персонажей и связывать разные формы имен одного персонажа друг с другом так, что «Элизабет» и «Элизабет Беннет» будут распознаны как один персонаж.
BookNLP работает не идеально. Например, персонажи, не имеющие собственного имени, пропускаются. Один персонаж может «разделиться» из-за использования необычных прозвищ, а несколько — быть объединены в одного, если их имена совпадают. Тем не менее обычно BookNLP правильно определяет пол даже в этих случаях, опираясь на имена и слова типа Mr и Mrs. Повествователи от первого лица были исключены из статистики из-за проблем, связанных с опознаванием их пола.
В корпусе, на котором проводилось исследование, 104 000 произведений художественной литературы. Они написаны в период с 1703 по 2009 год, но подавляющее большинство — с 1780 по 2007 год, и именно этот отрезок времени будет рассматриваться наиболее подробно.
Разумеется, в это собрание невозможно включить все книги. Используемые работы взяты в основном из цифровой библиотеки HathiTrust. Эта коллекция сравнивалась с альтернативной, разработанной в Chicago Text Lab и охватывающей период 1880-1989 годов. В целом это собрание текстов формируется на основе практики покупки книг для академических библиотек. Эта коллекция была проверена сравнением с собранием менее академичного образца от Publishers Weekly, и наиболее яркие тенденции в обоих образцах оказались схожи.
На рисунке отмечена доля слов, используемых в описании женщин. Эти слова включают глаголы, употребленные в описании персонажа, существительные, обозначающие объекты, которыми персонажи обладали (например, «духи»), и прилагательные, описывающие героя. Диалог между персонажами не засчитывается, но это не изменит картину. Персонажи неизвестного пола были исключены из общего числа, поэтому соотношение, которое строится здесь и в других местах статьи — это соотношение слов, которые описывают женщин, к словам, которые описывают либо мужчин, либо женщин.
До 1960 года видно устойчивое снижение. И это не ошибка в отборе коллекции, потому что два по-разному построенных корпуса, Hathitrust Fiction (отобран алгоритмически, включает в себя копии каждого тома, который алгоритм пометил как fiction, в том числе переводы) и Chicago Novel Corpus (выбран вручную и включает в себя только романы, написанные на английском, в том числе выдающиеся работы американских авторов). Несмотря на грубую дедупликацию HathiTrust, Chicago Novel Corpus с меньшей вероятностью будет включать дубликаты и намного лучше будет датировать работы по дате первой публикации. Тем не менее эти две коллекции показывают схожие результаты.
Как же можно объяснить эту тенденцию?
Женщины пишут о женских персонажах гораздо чаще, чем мужчины, поэтому любое снижение числа женщин-писателей создаст соответствующий спад в описании женщин. И действительно, наблюдалось довольно сильное снижение доли писателей-женщин с середины девятнадцатого века до середины двадцатого.
Есть две проблемы с этим графиком: первая заключается в том, насколько книги, взятые из академических библиотек, хорошо представляют мир художественной литературы, а вторая — в том, что для определения пола авторов более 104000 книг были использованы алгоритмы, которые могли не учесть неоднозначные, неевропейские имена, псевдонимы или тексты, у которых несколько авторов.
Чтобы устранить сомнения, авторы использовали ещё одну выборку, основанную на записях из Publishers Weekly, где присутствует множество неоцифрованных или не сохранённых в академических библиотеках книг. Четыре года исследователи отбирали тексты вручную, чтобы проверить точность алгоритмов и исключить влияние академических библиотек.
Такая выборка не выявила несоответствий с результатами машинной обработки. Следовательно, это снижение — не недостаток выборки, а действительно существующая тенденция.
Так почему это произошло?
Есть несколько гипотез. Первая состоит в том, что профессия писателя становилась более престижной и менее тяжёлой, что привлекало в нее мужчин. Также мужчины-модернисты начинают описывать мебель и предметы декора, что ранее считалось прерогативой женщин. В то же время для женщин стали доступны другие интеллектуальные карьеры, отличные от «романиста». В других жанрах их представленность сильно выросла, это могло вызвать спад интереса к написанию именно романов.
Изменение не просто в том, что больше мужчин решили стать писателями, или что женщины нашли другие возможности— литература сама по себе стала более внимательной к мужчинам. Мы можем проиллюстрировать это, рассматривая пространство на странице, которое авторы выделяют персонажам. Женщины пишут о женщинах больше. В книгах, написанных мужчинами, женщины занимают в среднем от четверти до трети пространства персонажей. В книгах, написанных женщинами, разделение гораздо ближе к равному. Но разрыв между полами удручающе устойчив и спустя двести лет.
Снижение известности женщин как персонажей между 1850 и 1960 годами остается видимым даже после того, как мы отделяем тома, написанные мужчинами и женщинами. Это говорит о том, что недопредставленность вымышленных женщин в книгах не может быть полностью объяснена недопредставленностью женщин-писателей на полках библиотек. Когда мы разделяем авторов по полу, мы обнаруживаем, что женщины становятся менее заметными даже в книгах женщин в этом столетии.
Гибкость гендерных ролей персонажей
Насколько точно получится определить гендерную принадлежность персонажей, если не принимать во внимание прямые указания? Это хорошо показывает количественная характеристика — представление в виде «мешка слов». Мы представляем каждого персонажа в виде тех слов, которые от него зависят — глаголы, прилагательные и тому подобное, исключая прямые указатели пола — слова типа «муж» или «жена». Модели представляется выборка персонажей с отмеченным гендером, и она научится понимать, что значит быть «мужским» или «женским», глядя на слова, связанные с персонажем. Затем эти шаблоны будут использованы для предсказания гендера других персонажей. Если модель будет делать это точно, значит, слова, используемые в характеристике персонажей, достаточно чётко распределяются по двум гендерам, и показатели, кажущиеся нейтральными, в действительности могут коррелировать с гендером.
Синие точки в каждом столбце соответствуют результатам работы 15 различным предсказательных моделей для каждого десятилетия. Случайным образом были отобраны 1600 персонажей каждый раз, и их классифицировали с использованием 2200 самых частотных слов в этой группе персонажей. Чтобы сделать эти сравнения точнее, средний размер текста, связанного с персонажем, составлял примерно 55 слов в каждом десятилетии. Это не так много, поэтому эти модели не являются точными.
Если посмотреть на график распределения точности предсказания гендера персонажей, можно увидеть, как она снижается с течением времени. Это более соответствует ожиданиям о прогрессе. Есть некоторая проблема в том, где именно необходимо определить границы слов, указывающих на пол напрямую, однако спорные случаи не сильно отклоняются от основной модели. Было проведено множество различных тестов, и авторы статьи уверены в контурах графика. Также авторы поделились кодом и данными, чтобы сделать работу воспроизводимой.
Основные выводы статьи
Во-первых, представленность женщин в литературе уменьшалось до середины двадцатого века. Во-вторых, границы гендеров в это время становились более гибкими, «нейтральные» слова стали меньше определять пол, т.е. превратились в действительно нейтральные. В третьих, несмотря на все волны феминизма писатели-мужчины в среднем уделяют описанию женских персонажей не более трети «эфирного времени» своих книг. В-четвертых, слова, которые служили косвенным признаком пола, различаются в зависимости от эпохи: иногда это слезы и вздохи, иногда — ухмылки и насмешки.
Источники: Ted Underwood, David Bamman, Sabrina Lee. The Transformation of Gender in English-Language Fiction