Стилометрия — метод анализа текста, который сейчас проводится с помощью компьютеров и сложных вычислений. Благодаря современной стилометрии можно изучить не только стиль произведения, но и установить авторство текста. «Системный Блокъ» рассказывает об одном из самых крупных стилометрических расследований — о загадке стихов декабриста Батенькова.
Иллюстратор: Женя Родикова
Стилометрия как дисциплина зародилась еще в конце XIX-начале XX века, ее методы активно разрабатываются и сегодня. Самый популярный из них — дельта Барроуза (или Бёрроуза). Этот метод помогает установить различия в стилях текстов, основываясь на частоте употребления в них служебных слов. Идея проста: чем больше сходства в употреблении таких слов, тем ближе стиль анализируемых произведений. Дельта чаще всего применяется именно для атрибуции текста — определения его подлинности и установления автора. О таких исследованиях мы рассказываем в статье Детективная история поиска автора: Асафьев или нет. Подробнее о методе Дельта Барроуза можно прочитать в “Глоссарии”.
Если кандидат на авторство только один, такая проблема называется верификацией авторства. Метод Дельта для верификации не подойдет: его с помощью нельзя определить, могут ли близкие по стилю произведения принадлежать одному автору. Тут нужна другая методика.
В 2020 году верификацией авторства заинтересовалась команда исследователей. В нее входили специалисты разных направлений: Артем Шеля — цифровой филолог, Петр Плехач — известный чешский цифровой стиховед и Юрий Зеленков — программист, занимающийся машинным обучением и анализом данных. Их внимание привлекла тайна стихов декабриста Батенькова.
В 1978 году в книге о поэте-декабристе Гаврииле Батенькове были опубликованы якобы вновь открытые и ранее неизвестные его стихотворения. Автором монографии был филолог Александр Анатольевич Илюшин, специалист по поэзии начала XIX века, сам иногда писавший стихи (шуточные и не только). В качестве источника обнаруженных произведений ученый указал рукописную тетрадь, которая находилась в архиве. Однако, когда рукописью заинтересовались другие исследователи, оказалось, что она бесследно исчезла. Таким образом, подлинность недавно опубликованных произведений Батенькова подтвердить было невозможно.
О фальсификации стихотворений декабриста в печати было сказано лишь через 19 лет после выхода монографии Илюшина. Филолог Максим Ильич Шапир (кстати, ученик Илюшина) провел анализ стиля текстов Батенькова — подлинных и сомнительных — на нескольких уровнях, а затем сопоставил полученные результаты.
В своей работе Шапир предполагает, что Илюшин мог сам написать якобы найденные им стихотворения и выдать их за стихи Батенькова. Однако этот тезис был подтвержден лишь частными наблюдениями. Шапир сравнивал стихотворения, сопоставляя отдельные уровни произведений (рифмы, используемые местоимения и др.). Некоторые из них были очень похожи, некоторые — разительно отличались; относительно третьих нельзя было сказать что-то однозначно. Ученый пришел к мысли, что невозможно установить авторство, изучив лишь текст произведения. Окончательный вывод так и не был сделан.
Исследователи Артем Шеля, Петр Плехач и Юрий Зеленков провели целый ряд экспериментов.
Первым методом, которым они воспользовались, была дельта Бёрроуза. Как уже упоминалось, у дельты есть ограничения: например, объем исследуемого текста должен составлять 2-5 тыс. слов. В случае с Батеньковым использовать «Дельту» как единственную методику было нельзя, так как корпус — объем стихотворений для анализа стиля текста — недостаточно велик. Тем не менее, даже использование этого метода показало: между подлинными и сомнительными стихами поэта большая дистанция. Вероятно, тексты сомнительных произведений, т.н. корпус Dubia, действительно написаны не Батеньковым, но это неточно.
Чтобы решить проблему недостаточного объема корпуса, авторы статьи предложили использовать для определения авторства комбинацию признаков текста. Наряду с частотностью слов, исследователи решили учитывать:
Ученые хотели использовать и еще один признак текста — ритм, и даже провели проверочный эксперимент, который доказал эффективность такого метода для атрибуции стихотворений начала XIX века. Тем не менее, для изучения произведений Батенькова его оказалось невозможно применить: корпус Dubia был недостаточно большой.
Таким образом, в итоговом эксперименте учитывались следующие признаки текстов:
Помимо объема корпуса, перед исследователями стояла еще одна проблема: традиционные методы стилометрии помогают установить авторство, если есть несколько кандидатов. В случае с произведениями Батенькова задача была иной: определить, принадлежат ли произведения перу одного поэта. Иными словами, нужно было верифицировать авторство Батенькова.
В 2007 году командой исследователей из США и Израиля был предложен удобный для этого метод [1]. Он опирается на распространенный в стилометрии способ классификации текстов — SVM или Support Vector Machine, метод опорных векторов.
На поверхностном уровне методика работает так.
Компьютер выделяет признаки, характерные для конкретного корпуса текстов. Анализируя заданные учеными параметры — например, список самых частотных слов и биграмм — нейросеть на их основе определяет признаки, которые отличают этот текст от других. Этот список уникальных характеристик программа может присвоить любому корпусу.
Логично предположить: тексты, написанные одним человеком, будут отличаться меньше, чем тексты разных авторов. Если постепенно убирать из корпусов те характеристики, которые лучше всего позволяют компьютеру различать их, то тексты одного автора станут неразличимыми быстрее, чем разных. Благодаря этому и можно верифицировать авторство текста.
Материалом для эксперимента стали несколько корпусов текстов:
В ходе эксперимента требовалось оценить, насколько быстро падает точность разделения текстов Dubia и подлинных текстов исследуемого автора по сравнению с разделением Dubia и корпусов других авторов. Если сомнительные тексты на самом деле являются подлинными, то точность различения этих корпусов упадет намного быстрее, чем в случае с другими авторами. Если же тексты Dubia — поддельные, то точность их разделения будет сохраняться дольше, примерно столько же, сколько и в случае с остальными авторами.
Во всех произведениях было выполнено автоматическое распознавание рифм; в эксперименте участвовали только те строчки, в которых компьютер смог найти хотя бы 40 рифменных пар. Количество выборок было ограничено: для Dubia и текстов Батенькова — по 6 выборок, из произведений других авторов — 12.
Для начала исследователи разделяли выборки текстов на «тренировочный» и «проверочный» материалы. Машине сообщалось, кому принадлежит «тренировочные» тексты и она определяла признаки, характерные для этого автора.
После этого проходила процедура проверки: компьютер должен был классифицировать «проверочную» выборку, не попавшую в «тренировочный материал». Затем в качестве «проверочной» выделялась другая выборка, и так происходило до тех пор, пока «проверочными» не побывают все.
На следующем этапе из информации о текстах убирались 6 важнейших признаков, по которым компьютер различал тексты разных авторов. После «чистки» заново выполнялись все проверки, описанные в абзаце выше. Когда оканчивались проверки для корпусов одной пары авторов, бралась следующая пара, и весь алгоритм повторялся.
Затем наступал новый цикл эксперимента. Он шел по тому же алгоритму, что и первый. Всего эксперимент включал в себя 30 циклов.
Результаты работы можно увидеть на графиках ниже. Они показывают, насколько быстро падала точность разделения выборок, когда постепенно удалялись значимые признаки в тексте.
А вот средние кривые падения точности при сравнении стихов Псевдо-Батенькова с подлинными текстами (красная линия) и другими авторами. На графике выше красная линия там же, где и синие. Значит, компьютеру так же легко отличить друг от друга тексты Батенькова и Dubia, как корпусы разных поэтов.
Таким образом, эксперимент показал: нет оснований считать сомнительные тексты подлинными произведениями Батенькова.
Несмотря на четкий результат основного эксперимента, исследователи столкнулись еще с одной трудностью. Основная часть текстов Dubia была написана гораздо позднее, чем основная часть бесспорных текстов Батенькова. Между ранними и поздними стихотворениями — 20 лет одиночного заключения, которое, возможно, привело к психической болезни. Различия в стиле произведений разных периодов могут объясняться изменениями личности автора. На эти факты, в частности, опирался Шапир, доказывая, что филологическими методами опровергнуть подлинность Dubia невозможно.
Команда исследователей разработала 2 дополнительных эксперимента, позволяющих дать ответ на «хронологический» аргумент. Ученые решили сопоставить различия между подлинными стихотворениями Батенькова и Dubia с хронологическими изменениями в творчестве других поэтов.
Для этого они сначала повторили основной эксперимент, изменив корпусы поэтов-современников Батенькова: были отобраны лишь ранние и поздние их произведения. В результате точность классификации упала: компьютер в 67% верно указывал, что у выборок один автор, и только в 30% верно указывал, что авторы разные. Тем не менее, ни в одном из 30-ти циклов эксперимента корпус Dubia не был атрибутирован Батенькову.
Возможно, на результаты исследования повлияло то, что корпус Батенькова не был разделен на «ранний» и «поздний», в отличие от корпусов других поэтов? Среди ранних стихотворений Батенькова присутствуют достаточно длинные произведения — возможно, в выборки попадает слишком много строк из них, и таким образом хронологические изменения стиля не выявляются?
Чтобы исключить такую возможность, ученые провели дополнительный эксперимент. Они разделили корпус Батенькова на «ранний» и «поздний», а затем измерили стилистическое сходство между всеми «поздними» и «ранними» частями корпусов (включив Dubia).
На этот раз тексты брались целиком, без случайных выборок, так как объем корпусов стал совсем незначительным. Чтобы компенсировать это, в эксперименте учитывались ритмические характеристики поэтических строк (ритм был распознан автоматически отдельной программой). На графике ниже результаты.
Обратите внимание на красные линии: различия между Псевдо-Батеньковым и настоящим Батеньковым соответствует различиям между разными поэтами, например, Пушкиным и Лермонтовым. В остальных корпусах авторский сигнал сохраняется, даже несмотря на хронологические отличия в стиле. Соответственно, различия Dubia и подлинных текстов не относятся к изменению авторского стиля во времени.
В конце работы авторы решили проверить гипотезу о том, что автором Dubia является филолог Илюшин. Они провели классификацию текстов Илюшина, Dubia и некоторых поэтов начала XIX века. В качестве признаков текстов выступали 150 наиболее частотных слов и триграмм.
В итоге тексты Псевдо-Батенькова кластеризовались — совпали по определенным параметрам — со стихами, где авторство Илюшина известно (на диаграмме ниже они обозначены как «Дедушка», «Центонное», «Псевдо-Григорьев», «Сидорин_Грек», «Сидорин_Вампир»; не все из них изначально подписаны Илюшиным). Тем не менее, из этого нельзя сделать однозначный вывод об авторстве филолога: некоторые тексты, взятые для эксперимента в качестве произведений Илюшина, на самом деле не имели точного указания на автора. Таким образом, кластеризация Dubia с произведениями конца XX века указывает лишь на то, что XIX-му веку язык Псевдо-Батенькова не соответствует.
Таким образом, автором сомнительных текстов с высокой — хотя и не стопроцентной — вероятностью является Илюшин.
Из своей работы исследователи сделали очень важный методологический вывод, который отчасти полемизирует с заключением Михаила Шапира. Отсутствие стопроцентной точности в результатах эксперимента не говорит о бесполезности использования цифровых методов для атрибуции текстов — или о невозможности «восстановить авторскую индивидуальность из текста и языка». Цифровые методы наглядно показывают вероятность ошибки в исследовании, а также границы возможностей исследователя. Использование других методов может также привести к ошибке — но в этом случае ее вероятность не будет выражена в процентах и степень уверенности будет невозможно оценить.
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…