Читать нас в Telegram
Иллюстрация: Лара Холод

Одна из основных задач стилометрии в цифровой филологии — атрибуция, иными словами, определение авторства (кстати, с другими материалами «Системного Блока» о стилометрии можно ознакомиться здесь). При достаточном объеме текста она справляется с этим легко, и её не запутать формальностями вроде псевдонима. Однако, что покажет анализ, если писатель не просто использует выдуманное имя, а создает субличность с собственными биографией и характером?

В исследовании «Hacking stylometry with multiple voices: Imaginary writers can override authorial signal in Delta» Даниил Скоринкин (НИУ ВШЭ) и Борис Орехов (НИУ ВШЭ, ИРЛИ РАН), опубликованном в журнале Digital Scholarship in the Humanities, рассматривают два кейса о том, как авторы «обманули» стилометрический анализ.

Кейс №1: множественные гетеронимы Фернандо Пессоа

Фернандо Пессоа — португальский поэт, работавший в начале XX века. Особенностью его творчества было создание «гетеронимов», субличностей, от лица которых он писал стихи. Гетеронимы Пессоа — не просто псевдонимы. В письмах Пессоа сообщал своим корреспондентам их биографии, особенности использования языка, даже черты внешности. За свою жизнь поэт создал 72 гетеронима, однако наиболее значимыми оказались три из них: Алберту Каэйру, Рикарду Рейш и Алвару де Кампуш. О них и пойдет речь дальше.

Важно оговорить, что смысл исследования Д. Скоринкина и Б. Орехова был не в том, чтобы обратить внимание на уникальный случай португальского поэта, а в том, чтобы описать разные отношения между автором и псевдонимом. Так, если на одном «полюсе» находится использование псевдонима с сохранением авторского стиля, а на другом — четко отделенные гетеронимы Пессоа, то есть ли какие-то еще варианты между этими крайностями? Спойлер: да, и об этом — ниже.

Насколько же индивидуален стиль гетеронимов Пессоа? В рамках первого эксперимента, авторы исследования разделили корпус стихотворений, написанный «самим» Пессоа и тремя «основными» гетеронимами, на четыре кластера с помощью метода Delta. Он основан на сравнении частотных слов в каждом из блоков текстов. Тексты одного автора были разбиты на блоки для анализа случайно; более того, деление проводилось несколько раз, чтобы исключить случайность.

Дендрограммы, показывающие стилистическую близость между текстами Пессоа и трех его гетеронимов
Дендрограммы, показывающие стилистическую близость между текстами Пессоа и трех его гетеронимов

Как видно на рисунке выше, с задачей «разделения» четырех авторов стилометрический метод справился успешно. Иными словами, он увидел в корпусе произведения, принадлежащие не одному, а разным людям. 

Дендрограмма – это иерархическая визуализация, которая используется в анализе данных, включая лингвистические исследования. Она представляет собой дерево-подобную структуру, в которой объекты или группы объединяются в кластеры на основе их схожести. Эти кластеры формируются в результате нескольких шагов. Каждый шаг подразумевает объединение близких между собой объектов в один кластер.

Кстати, важно заметить, что, в отличие от многих других случаев использования псевдонимов, у Пессоа и его субличностей совпадает жанр текстов. Конечно, Delta легко отличит книги Джоан Роулинг о Гарри Поттере от детективов Роберта Гэлбрейта о Корморане Страйке или раскроет литературную мистификацию, но кейс Пессоа гораздо сложнее и интереснее.

Метод Delta: взгляд на схожесть поэтических субличностей Пессоа

В следующей части эксперимента исследователи добавили в набор данных восемь лузофонных (то есть португалоговорящих, как из Португалии, так и из Бразилии) поэтов той же эпохи. Тексты снова несколько раз делились на блоки для анализа случайным образом.

Дендрограммы, показывающие стилистическую близость между текстами Пессоа, трех его гетеронимов и восьми других лузофонных поэтов
Дендрограммы, показывающие стилистическую близость между текстами Пессоа, трех его гетеронимов и восьми других лузофонных поэтов

Этот эксперимент показал, что гетеронимы Пессоа по-прежнему воспринимаются как отдельные авторские голоса. Да, они по большей части ближе друг к другу, чем к текстам других авторов, однако Delta продолжает считать все гетеронимы и «самого» Пессоа самостоятельными поэтами.

Одним из важных шагов в исследованиях с помощью метода Delta является разделение текстов так, чтобы все доступные произведения одного автора не анализировались одним «куском»; это дестабилизирует всю схему, заставляя одиночные тексты «на безрыбье» примыкать к вообще-то не очень похожим на них соседям. Впрочем, раз исследование посвящено степени самостоятельности авторских субличностей, то Д. Скоринкин и Б. Орехов пошли на этот шаг и специально объединили все тексты. Таким образом они проверили гипотезу: приблизятся ли гетеронимы к своему создателю в подобных условиях?

Расстояние Delta между текстами «самого» Пессоа, других лузофонных поэтов и блоком текстов гетеронима Пессоа Рейша
Расстояние Delta между текстами «самого» Пессоа, других лузофонных поэтов и блоком текстов гетеронима Пессоа Рейша

Действительно, для двух из трех гетеронимов предположение оказалось верным, однако третий, Рейш, оказался ближе к другому поэту — Друммонду. Это говорит о высоком уровне индивидуальности авторского стиля Рейша.

Обычно числовой эквивалент расстояния между текстами одного автора составляет 0,5-0,6, а между текстами разных авторов — больше единицы. В приведенном выше случае минимальное расстояние между блоком стихотворений Рейша и произведениями других авторов превосходит единицу.

Итак, ряд экспериментов показал, что со стилометрической точки зрения гетеронимы Фернандо Пессоа — самостоятельные поэты со своими индивидуальными чертами. Однако может ли быть что-то среднее между независимой субличностью и «простым» псевдонимом?

Кейс №2: как писатель Ромен Гари дважды получил Гонкуровскую премию 

Французский писатель Ромен Гари известен по одной из самых громких литературных мистификаций: он дважды получил Гонкуровскую премию, самую престижную литературную награду во Франции, которую (вообще-то) вручают раз в жизни. Впервые он был награжден в 1956 году под именем Ромена Гари, а потом в 1975 году — под псевдонимом Эмиль Ажар.

Помимо Ажара, у Гари были и другие псевдонимы, например, Шатан Бога и Фоско Синибальди, однако только для Ажара писатель продумал биографию и черты характера. В итоге, его альтер эго оказалось достаточно реальным, чтобы получить престижную награду за свое творчество.

Авторы статьи выбрали кейс французского писателя по двум причинам. Во-первых, Гари и Ажар творили в одном жанре, а во-вторых, Гари продолжал печататься под своим именем одновременно с развитием писательской карьеры Ажара.

Дендрограммы, показывающие стилистическую близость между текстами Гари и его трех псевдонимов
Дендрограммы, показывающие стилистическую близость между текстами Гари и его трех псевдонимов

Первый из проведенных в этой части исследования экспериментов посвящен сравнению стилей Гари и его трех псевдонимов. Снизу под графиками подписано число частотных слов, учитывающихся в анализе (100 или 500). Результаты оказались не слишком стабильными: Delta группирует некоторые романы одного и того же «автора», но не всегда и не все. Тем не менее, книги Ажара «похожи» только на другие книги Ажара и в целом отличаются от остальных.

Дендрограммы, показывающие стилистическую близость между текстами Гари, текстами его трех псевдонимов и трех других французских писателей
Дендрограммы, показывающие стилистическую близость между текстами Гари, текстами его трех псевдонимов и трех других французских писателей

Лингвистический эксперимент: отношения между Гари, Ажаром и другими писателями 

В следующем эксперименте в корпус были добавлены тексты трех авторов, которые также стали лауреатами Гонкуровской премии в примерно в то же время, когда работали Гари и Ажар. Анализ показал, что Бога и Синибальди, два менее «продуманных» псевдонима Гари, находятся ближе к нему, тогда как Ажар скорее воспринимается программой как самостоятельный писатель.

Сеть, отражающая близость между текстами Гари, его псевдонимов и других французских авторов
Сеть, отражающая близость между текстами Гари, его псевдонимов и других французских авторов

Ближе всего к творчеству Ажара оказалась книга Ромена Гари «Дальше ваш билет недействителен»: в этом и последующих экспериментах она будто бы находится на границе стилей Гари и Ажара.

Наконец, с этой группой текстов была проделана та же операция по дестабилизации, что и с гетеронимами Пессоа: один роман Ажара был помещен в окружение нескольких текстов Гари и его современников.

Расстояние Delta между романом Ажара «Голубчик» («Gros calin»), текстами Гари и текстами двух других французских писателей
Расстояние Delta между романом Ажара «Голубчик» («Gros calin»), текстами Гари и текстами двух других французских писателей

Даже в такой ситуации (и вне зависимости от числа учитываемых частотных слов) Delta сгруппировал роман Ажара только с «граничным» текстом Гари «Дальше ваш билет недействителен», еще раз признавая в Ажаре самостоятельного писателя.

«Взлом» стилометрии

Итак, авторы исследования выяснили, что писателям под силу не только создавать отдельные субличности с собственным стилем и биографией, но и двигать границу между просто псевдонимом и субличностью так, что Delta начинает путаться в показаниях.

Пессоа рассказывал, что свои гетеронимы он представлял кем-то вроде персонажей пьесы: все их речи пишет один и тот же драматург, однако они выходят из-под его пера разными и узнаваемыми. В исследовании Скоринкина и Орехова есть небольшая заключительная часть, посвященная проверке этого сравнения. Действительно, Delta легко «сортирует» реплики персонажей классических пьес.

Источники

  1. Daniil Skorinkin, Boris Orekhov. Hacking stylometry with multiple voices: Imaginary writers can override authorial signal in Delta. Digital Scholarship in the Humanities, 2023
  2. Пессоа, Фернандо // Википедия
  3. John Burrows. «‘Delta’: a measure of stylistic difference and a guide to likely authorship.» Literary and linguistic computing, 2002, Volume 17, Issue 3, pp. 267-287
  4. Зубова В. Р. 105 лет со дня рождения Ромена Гари // Дом русского зарубежья им. А. И. Солженицына. 2019.