Читать нас в Telegram
что такое стилометрия
Иллюстратор: Юлия Бобкова

Вопросы авторства того или иного текста столетиями волнуют человечество. Например, существовал ли Гомер и писал ли он «Илиаду»? Кем на самом деле был Шекспир? Принадлежит ли «Тихий Дон» Шолохову, а «Зов кукушки» — Джоан Роулинг? И хотя на некоторые вопросы однозначного ответа все еще нет, современные научные методы позволяют в большинстве случаев установить автора произведения.

Сегодня статистический анализ для атрибуции текста называется стилометрией, однако не всегда ее задачей был поиск автора, кроме того — до появления компьютеров, позволяющих проводить сложные математические вычисления, методы стилометрии могли отличаться от сегодняшних.

Первые свидетельства атрибуции текста

Вопрос о том, принадлежит ли текст названному автору или нет, часто выходит за рамки науки в область идеологии или политики, а в XV веке от него зависела судьба государства. Тогда римские папы имели притязания на сюзеренитет над Неаполитанским королевством. Светская власть пап объяснялась «Константиновым даром» — грамотой, в которой было сказано, что якобы император Константин Великий передал папе Сильвестру I западную часть Римской империи и отправился в Константинополь. Однако в 1440 году итальянский гуманист Лоренцо Валла написал трактат «О подложности Константинова дара», в котором он доказал, что текст — подделка, написанная средневековой латынью VIII века, а не IV века, как предполагалось.

Лоренцо Валла «О подложности Константинова дара», 1620 (wikipedia.org)

Эта работа — первый пример атрибуции с опорой на сам текст. К сожалению, в ситуациях, когда временного разрыва между текстом и событием нет, такой метод не применим. И если у исследователей нет никаких дополнительных свидетельств о возможном авторе, например, платежных ведомостей за публикацию, то единственным доступным инструментом остается количественный анализ, который от трудов Лоренцо Валла отделен по меньшей мере четырьмя веками развития научного метода.

Томас Менденхолл и ошибочный признак

Томас Менденхолл, 1890 (archive.org)

Одним из первых проблему авторства в XIX веке количественным методом пытался решить американский физик Томас Менденхолл. Он, опираясь на предположения английского математика Августа де Моргана, использовал длину слова как признак авторства и пришел к выводу о том, что Фрэнсис Бэкон никак не мог быть автором текстов Уильяма Шекспира (которые иногда приписывают Бэкону). Однако, как оказалось, признак, который он выбрал, не дискриминирующий (т.е. не обладает способностью отделять одного автора от другого), кроме того, Менденхолл ошибся в подсчетах. Поэтому ни установить, кому принадлежат тексты Шекспира, ни изобрести универсальный метод определения авторства ему в итоге не удалось.

Винцетий Лютославский и появление стилометрии

В конце XIX веке начинаются активные эксперименты как в способах определения авторства, так и в датировке текстов. И хотя с точки зрения авторства исследования не были успешными, они заложили идею того, что в тексте нужно искать частотные атомарные факты. Например, польско-немецкая школа антиковедов и, в частности, Винцетий Лютославский предлагали считать служебные слова в тексте, на основе чего делать осторожные утверждения о том, какие диалоги Платона были написаны раньше, а какие позже. Такой метод они назвали стилометрией, и он, в отличие от стилометрии сегодняшней, не помогал устанавливать принадлежность текста кому-либо. Эмпирических подтверждений в пользу какого-то эксперимента об авторстве в конце XIX века попросту не было.

Однако исследования, как мы сейчас знаем, шли в правильном направлении. Просто у ученых того времени не было возможности быстро проверять гипотезы, подсчитывать частотности большого количества слов. Говоря проще — у них не было компьютеров, без которых на подсчет частотности хотя бы одного слова в тексте занимал несколько дней кропотливой работы.

Николай Морозов у истоков стилометрии

Труды Винцентия Лютославского и других членов польско-немецкой школы стилометристов в начале XX века вдохновили Николая Александровича Морозова на подсчет служебных слов для определения авторства текста.

Образчики главного предложного спектра (vvu-library)

Он посчитал 3 служебных слова для произведений А.С. Пушкина, Л.Н. Толстого, Н.В. Гоголя и И.С. Тургенева в статье «Лингвистические спектры, как средство для отличения плагиатов от истинных произведений того или другого известного автора и для определения их эпохи», однако написал, что это занимает очень много времени, и не получил какого-то убедительного результата. Николай Морозов показал закономерность в использовании служебных слов писателями, но полноценный эксперимент, который бы доказывал эффективность метода на разных авторах, не поставил, а вскоре вернулся к революционной деятельности, после чего уже не вернулся к исследованию. Вероятно, он бы и не дошел до результата, потому как ему необходимо было посчитать частоту не для 3-х, а примерно для 100 служебных слов. Однако стоит сказать, что Николай Морозов, по сути, объединил два корня современной стилометрии. Один идет от задачи — определение авторства, что до него безуспешно пытался сделать Томас Менденхолл, другой — от метода подсчета, придуманного польско-немецкими античниками.

Статистический эксперимент для 12 спорных памфлетов

В 1963 году два американских статистика, Фредерик Мостеллер и Дэвид Уоллес, опубликовали статью «Inference in an Authorship Problem», в которой ответили на известный в американской историографии вопрос о том, кто написал 12 спорных памфлетов из «Записок федералиста» — сборника статей в поддержку утверждения Конституции США. Все публикации подписывались псевдонимом Публий, но несмотря на это авторство большинства текстов было известно, за исключением 12 памфлетов.

Тогда Мостеллер и Уоллес, которые, в отличие от предшественников, уже имели ЭВМ для сложных вычислений, попробовали посчитать служебные слова в текстах, но не для датировки, как это делали антиковеды конца XIX века, а для поиска автора. Кандидатами в авторы 12 спорных памфлетов были Джеймс Мэдисон (4-й президент США) и Александр Гамильтон (соратник Джорджа Вашингтона, основоположник американской экономической системы).

Портрет Джеймса Мэдисона, Джон Вандерлин, 1816 (wikipedia.org)

В ходе эксперимента статистики обнаружили, что целый ряд служебных слов употребляется и в 12 спорных памфлетах, и в статьях Джеймса Мэдисона.

Inference in an Authorship Problem, 1963 (jstor.org)

Это исследование предшествует современной стилометрии, ключевая идея которой в том, что человек почти не контролирует грамматическую часть своей речи — например, он может не задумываться, как часто использует предлоги «про» или «о» и как часто их взаимозаменяет. И хотя использование одного такого предлога ничего не скажет исследователю, 100 или 200 служебных слов на большом корпусе текстов, как оказалось, могут показать закономерности для разных авторов.

Джон Барроуз и современная стилометрия

Большинство современных стилометрических исследований опираются на метод Дельты, придуманный Джоном Барроузом (John Burrows) в конце 1990-х — начале 2000-х годов. В его основе лежит подсчет разницы в частотностях между наиболее частотными словами в спорном тексте и тех трудах, чье авторство не вызывает сомнения. Чем меньше дельта, тем выше вероятность, что текст принадлежит ближайшему автору. Так Джон Барроуз изобрел первый универсальный инструмент для атрибуции текста.

Сам Барроуз открыл свой метод на английских поэтах XVII века. Но многочисленные эксперименты показывают, что Дельта работает с разными жанрами и языками. Дельта уже многократно проверялась на разных вариантах английского, немецком, французском, итальянском, польском, русском, китайском и других языках, включая древние. Тексты неизменно кластеризуются алгоритмом по автору. Вот эксперимент редакции Системного Блока с 14-ю русскими романами одного периода:

Самый главный плюс стилометрии в том, что ее легко верифицировать экспериментально. Большинство текстов в мире имеют конкретное авторство, и никто в нем не сомневается. Поэтому можно взять Л.Н. Толстого, Ф.М. Достоевского и И.С. Тургенева и смотреть, как дельта распределит произведения между ними. Недостаток стилометрии в том, что она достоверно работает только на больших текстах, не менее 5-10 тысячи слов.

Стилометрия и шекспировский вопрос

К сожалению, стилометрия не дает однозначного ответа об авторстве шекспировских текстов. Прежде всего потому, что они меньше, чем требуется для подсчета с помощью Дельты Барроуза. Кроме того, есть не так много авторов-современников, с которыми можно сравнивать труды Шекспира в том же жанре — на стилометрию влияет жанровый сигнал, поэтому взять, скажем, пьесы и исторические трактаты не получится. Еще для дизайна убедительного исследования нужны авторы, которые точно не являются кандидатами.

Пока с помощью стилометрии удалось лишь подтвердить утверждения шекспироведов о том, что часть пьесы «Генрих VI» Шекспир писал в соавторстве с Кристофером Марло — одним из тех людей, кому иногда приписывают авторство Шекспира. Эта теория красиво эксплуатируется в фильме Джима Джармуша «Выживут только любовники», однако стилометрия говорит, что тексты Марло не смешиваются с текстами Шекспира, за исключением отдельных пьес, и в частности — «ГенрихаVI». Некоторые издательства уже указывают, что «Генрих VI» был написан в соавторстве.

В остальном сказать что-либо о трудах поэта однозначно нельзя. Если был кто-то под именем Шекспира и ничего не написал под настоящим именем, то узнать об этом с помощью стилометрии не получится.

Перспективы стилометрии

Перспективным направлением исследований является соавторство. Если книгу писали несколько авторов, исследователям важно понять, какие фрагменты писал каждый из них. Например, приключенческий роман «Скиталец» официально написан Генри Хаггардом и Эндрю Лэнгом в 1890 году, однако стилометрический инструмент rolling stylo, который показывает авторский сигнал в тексте динамически, демонстрирует довольно убедительно, что большую часть текста написал Хаггард, хотя начало он оставил от Лэнга.

Динамический авторский след в романе «Скиталец» Генри Хаггарда (красные участки) и Эндрю Лэнга (зеленые участки), выявленный с помощью rolling stylo (computationalstylistics.github.io)

Другое важное направление — переводы. Законный вопрос, который назревает у людей при знакомстве со стилометрией: что произойдет, если проанализировать не сами тексты, а их переводы? Как правило, одного автора переводят разные люди в течение нескольких лет. Например, если мы возьмем переводы романов Жюля Верна, то получим тексты, написанные переводчиками на разных языках. Оказывается, что авторский сигнал во многих случаях сохраняется. Жюль Верн, переведенный на английский разными людьми, оказывается похож на остальные произведения Жюля Верна. При этом авторство в экспериментах уцелевает не всегда, их результаты на этот счет довольно противоречивы. Прямо сейчас в стилометрии делается много исследований, которые могут позволить атрибутировать переведенные тексты.

Источники