Читать нас в Telegram
Иллюстратор: Женя Родикова

Стилометрия как дисциплина зародилась еще в конце XIX-начале XX века, ее методы активно разрабатываются и сегодня. Самый популярный из них  — дельта Барроуза (или Бёрроуза). Этот метод помогает установить различия в стилях текстов, основываясь на  частоте употребления в них служебных слов. Идея проста: чем больше сходства в употреблении таких слов, тем ближе стиль анализируемых произведений. Дельта чаще всего применяется именно для атрибуции текста — определения его подлинности и установления автора. О таких исследованиях мы рассказываем в статье Детективная история поиска автора: Асафьев или нет. Подробнее о методе Дельта Барроуза можно прочитать в “Глоссарии”.

Если кандидат на авторство только один, такая проблема называется верификацией авторства. Метод Дельта для верификации не подойдет: его с помощью нельзя определить, могут ли близкие по стилю произведения принадлежать одному автору. Тут нужна другая методика. 

В 2020 году верификацией авторства заинтересовалась команда исследователей. В нее входили специалисты разных направлений: Артем Шеля — цифровой филолог, Петр Плехач — известный чешский цифровой стиховед и Юрий Зеленков — программист, занимающийся машинным обучением и анализом данных. Их внимание привлекла тайна стихов декабриста Батенькова.

Неуловимая тетрадка: что не так со стихами поэта Батенькова

В 1978 году в книге о поэте-декабристе Гаврииле Батенькове были опубликованы якобы вновь открытые и ранее неизвестные его стихотворения. Автором монографии был филолог Александр Анатольевич Илюшин, специалист по поэзии начала XIX века, сам иногда писавший стихи (шуточные и не только). В качестве источника обнаруженных произведений ученый указал рукописную тетрадь, которая находилась в архиве. Однако, когда рукописью заинтересовались другие исследователи, оказалось, что она бесследно исчезла. Таким образом, подлинность недавно опубликованных произведений Батенькова подтвердить было невозможно.

О фальсификации стихотворений декабриста в печати было сказано лишь через 19 лет после выхода монографии Илюшина. Филолог Максим Ильич Шапир (кстати, ученик Илюшина) провел анализ стиля текстов Батенькова —  подлинных и сомнительных — на нескольких уровнях, а затем сопоставил полученные результаты. 

В своей работе Шапир предполагает, что Илюшин мог сам написать якобы найденные им стихотворения и выдать их за стихи Батенькова. Однако этот тезис был подтвержден лишь частными наблюдениями. Шапир сравнивал стихотворения, сопоставляя отдельные уровни произведений (рифмы, используемые местоимения и др.). Некоторые из них были очень похожи, некоторые — разительно отличались; относительно третьих нельзя было сказать что-то однозначно. Ученый пришел к мысли, что невозможно установить авторство, изучив лишь текст произведения. Окончательный вывод так и не был сделан.

Трудности в начале исследования 

Исследователи Артем Шеля, Петр Плехач и Юрий Зеленков провели целый ряд экспериментов. 

Первым методом, которым они воспользовались, была дельта Бёрроуза. Как уже упоминалось, у дельты есть ограничения: например, объем исследуемого текста должен составлять 2-5 тыс. слов. В случае с Батеньковым использовать «Дельту» как единственную методику было нельзя, так как корпус — объем стихотворений для анализа стиля текста —  недостаточно велик. Тем не менее, даже использование этого метода показало: между подлинными и сомнительными стихами поэта большая дистанция. Вероятно, тексты сомнительных произведений, т.н. корпус Dubia, действительно написаны не Батеньковым, но это неточно. 

Чтобы решить проблему недостаточного объема корпуса, авторы статьи предложили использовать для определения авторства комбинацию признаков текста. Наряду с частотностью слов, исследователи решили учитывать:

  • частотность биграмм (последовательностей из двух символов, включая пробелы),  
  • рифмы (длины рифмующихся слов, пары опорных гласных и согласных звуков и другие особенности).

Ученые хотели использовать и еще один признак текста — ритм, и даже провели проверочный эксперимент, который доказал эффективность такого метода для атрибуции стихотворений начала XIX века. Тем не менее, для изучения произведений Батенькова его оказалось невозможно применить: корпус Dubia был недостаточно большой.  

Таким образом, в итоговом эксперименте учитывались следующие признаки текстов:

  • 150 самых частотных слов;
  • 150 самых частотных символьных биграмм;
  • 156 признаков рифмы.

Помимо объема корпуса, перед исследователями стояла еще одна проблема: традиционные методы стилометрии помогают установить авторство, если есть несколько кандидатов. В случае с произведениями Батенькова задача была иной: определить, принадлежат ли произведения перу одного поэта. Иными словами, нужно было верифицировать авторство Батенькова.

В 2007 году командой исследователей из США и Израиля был предложен удобный для этого метод [1]. Он опирается на распространенный в стилометрии способ классификации текстов — SVM или Support Vector Machine, метод опорных векторов. 

На поверхностном уровне методика работает так.

Компьютер выделяет признаки, характерные для конкретного корпуса текстов. Анализируя заданные учеными параметры — например, список самых частотных слов и биграмм — нейросеть на их основе определяет признаки, которые отличают этот текст от других. Этот список уникальных характеристик программа может присвоить любому корпусу. 

Логично предположить: тексты, написанные одним человеком, будут отличаться меньше, чем тексты разных авторов. Если постепенно убирать из корпусов те характеристики, которые лучше всего позволяют компьютеру различать их, то тексты одного автора станут неразличимыми быстрее, чем разных. Благодаря этому и можно верифицировать авторство текста. 

Материалом для эксперимента стали несколько корпусов текстов:

  • корпус Dubia — в эксперименте сомнительными произведениями выступали  отобранные стихи из монографии Илюшина;
  • подлинный корпус произведений писателя или поэта, авторство требует верификации — это были стихи, принадлежность которых Батенькову не вызывала сомнений;
  • корпуса нескольких других поэтов или писателей, близких предполагаемому автору Dubia — для этого были взяты 7 авторов, тексты которых есть в поэтическом подкорпусе НКРЯ: Баратынского, Лермонтова, Пушкина, Жуковского, Вяземского, Тютчева и Языкова. 

В ходе эксперимента требовалось оценить, насколько быстро падает точность разделения текстов Dubia и подлинных текстов исследуемого автора по сравнению с разделением Dubia и корпусов других авторов. Если сомнительные тексты на самом деле являются подлинными, то точность различения этих корпусов упадет намного быстрее, чем в случае с другими авторами. Если же тексты Dubia — поддельные, то точность их разделения будет сохраняться дольше, примерно столько же, сколько и в случае с остальными авторами.

Во всех произведениях было выполнено автоматическое распознавание рифм; в эксперименте участвовали только те строчки, в которых компьютер смог найти хотя бы 40 рифменных пар. Количество выборок было ограничено: для Dubia и текстов Батенькова — по 6 выборок, из произведений других авторов — 12. 

Главный эксперимент: принадлежат ли сомнительные стихи Батенькову? 

Для начала исследователи разделяли выборки текстов на «тренировочный» и «проверочный» материалы. Машине сообщалось, кому принадлежит «тренировочные» тексты и она определяла признаки, характерные для этого автора.

После этого проходила процедура проверки: компьютер должен был классифицировать «проверочную» выборку, не попавшую в «тренировочный материал». Затем в качестве «проверочной» выделялась другая выборка, и так происходило до тех пор, пока «проверочными» не побывают все.

На следующем этапе из информации о текстах убирались 6 важнейших признаков, по которым компьютер различал тексты разных авторов. После «чистки» заново выполнялись все проверки, описанные в абзаце выше. Когда оканчивались проверки для корпусов одной пары авторов, бралась следующая пара, и весь алгоритм  повторялся.

Затем наступал новый цикл эксперимента. Он шел по тому же алгоритму, что и первый. Всего эксперимент включал в себя 30 циклов. 

Результаты работы можно увидеть на графиках ниже. Они показывают, насколько быстро падала точность разделения выборок, когда постепенно удалялись значимые признаки в тексте.

Серыми линиями отмечено изменение точности в тех случаях, когда выборки принадлежат разным авторам. Красные линии — это точность различения двух групп текстов, написанных одним автором (указан в заголовке графика). 

Различить разные тексты одного автора всегда сложнее, чем произведения двух авторов, поэтому точность классификации всегда меньше — соответственно, красная кривая на всех графиках ниже серых. Источник: Шеля А., Плехач П., Зеленков Ю. Феномен Батенькова и проблема верификации авторства: многомерный статистический подход к нерешенному вопросу. Acta Slavica Estonica XI. Пушкинские чтения в Тарту 6. Т. 2. 2020.

А вот средние кривые падения точности при сравнении стихов Псевдо-Батенькова с подлинными текстами (красная линия) и другими авторами. На графике выше красная линия там же, где и синие. Значит, компьютеру так же легко отличить друг от друга тексты Батенькова и Dubia, как корпусы разных поэтов.

Таким образом, эксперимент показал: нет оснований считать сомнительные тексты подлинными произведениями Батенькова. 

Хронологический аспект: зачем понадобились дополнительные исследования

Несмотря на четкий результат основного эксперимента, исследователи столкнулись  еще с одной трудностью. Основная часть текстов Dubia была написана гораздо позднее, чем основная часть бесспорных текстов Батенькова. Между ранними и поздними стихотворениями — 20 лет одиночного заключения, которое, возможно, привело к психической болезни. Различия в стиле произведений разных периодов могут объясняться изменениями личности автора. На эти факты, в частности, опирался Шапир, доказывая, что филологическими методами опровергнуть подлинность Dubia невозможно.

Команда исследователей разработала 2 дополнительных эксперимента, позволяющих дать ответ на «хронологический» аргумент. Ученые решили сопоставить различия между подлинными стихотворениями Батенькова и Dubia с хронологическими изменениями в творчестве других поэтов. 

Для этого они сначала повторили основной эксперимент, изменив корпусы  поэтов-современников Батенькова: были отобраны лишь ранние и поздние их произведения. В результате точность классификации упала: компьютер в 67% верно указывал, что у выборок один автор, и только в 30% верно указывал, что авторы разные. Тем не менее, ни в одном из 30-ти циклов эксперимента корпус Dubia не был атрибутирован Батенькову.  

Возможно, на результаты исследования повлияло то, что корпус Батенькова не был разделен на «ранний» и «поздний», в отличие от корпусов других поэтов? Среди ранних стихотворений Батенькова присутствуют достаточно длинные произведения — возможно, в выборки попадает слишком много строк из них, и таким образом хронологические изменения стиля не выявляются? 

Чтобы исключить такую возможность, ученые  провели дополнительный эксперимент. Они разделили корпус Батенькова на «ранний» и «поздний», а затем измерили стилистическое сходство между всеми «поздними» и «ранними» частями корпусов (включив Dubia).

Распределение строк, написанных Батеньковым и Псевдо-Батеньковым, по десятилетиям. Все тексты с приблизительными датами были отнесены к верхней границе датировки.

На этот раз тексты брались целиком, без случайных выборок, так как объем корпусов стал совсем незначительным. Чтобы компенсировать это, в эксперименте учитывались ритмические характеристики поэтических строк (ритм был распознан автоматически отдельной программой). На графике ниже результаты.

Обратите внимание на красные линии: различия между Псевдо-Батеньковым и настоящим Батеньковым соответствует различиям между разными поэтами, например, Пушкиным и Лермонтовым. В остальных корпусах авторский сигнал сохраняется, даже несмотря на хронологические отличия в стиле. Соответственно, различия Dubia и подлинных текстов не относятся к изменению авторского стиля во времени.

Проверка гипотезы об авторстве Илюшина 

В конце работы авторы решили проверить гипотезу о том, что автором Dubia является филолог Илюшин. Они провели классификацию текстов Илюшина, Dubia и некоторых поэтов начала XIX века. В качестве признаков текстов выступали 150 наиболее частотных слов и триграмм. 

В итоге тексты Псевдо-Батенькова кластеризовались — совпали по определенным параметрам — со стихами, где авторство Илюшина известно (на диаграмме ниже они обозначены как «Дедушка», «Центонное», «Псевдо-Григорьев», «Сидорин_Грек», «Сидорин_Вампир»; не все из них изначально подписаны Илюшиным). Тем не менее, из этого нельзя сделать однозначный вывод об авторстве филолога: некоторые тексты, взятые для эксперимента в качестве произведений Илюшина, на самом деле не имели точного указания на автора. Таким образом, кластеризация Dubia с произведениями конца XX века указывает лишь на то, что XIX-му веку язык Псевдо-Батенькова не соответствует.

Для подтверждения авторства Илюшина исследователи провели еще один, последний эксперимент. В ходе него строки Псевдо-Батенькова в 21% случаев оказывались более похожи на строки Илюшина, чем на другие отрывки Dubia или сочинений других авторов.

Таким образом, автором сомнительных текстов с высокой — хотя и не стопроцентной — вероятностью является Илюшин.

Перехватывая эстафету Михаила Шапира 

Из своей работы исследователи сделали очень важный методологический вывод, который отчасти полемизирует с заключением Михаила Шапира. Отсутствие стопроцентной точности в результатах эксперимента не говорит о бесполезности использования цифровых методов для атрибуции текстов — или о невозможности «восстановить авторскую индивидуальность из текста и языка». Цифровые методы наглядно показывают вероятность ошибки в исследовании, а также границы возможностей исследователя. Использование других методов может также привести к ошибке — но в этом случае ее вероятность не будет выражена в процентах и степень уверенности будет невозможно оценить.

Источники