Что такое дельта Бёрроуза и как её считать
Дельта Бёрроуза — это мера стилистической близости между текстами. Метод был предложен в 2001 году австралийским филологом Джоном Бёрроузом (до этого Бёрроуз пару десятков лет применял статистику и цифровые методы в исследовании литературы — еще в 1987-м он написал книжку про компьютерный анализ Джейн Остин). С тех пор дельту используют во многих исследованиях, большая часть которых посвящена установлению авторства различных произведений. Рассмотрим, как её вычислить.
Предположим, у нас есть корпус из m текстов (обозначим их D1, D2,…,Dm), и мы хотим найти расстояния между каждыми двумя текстами из него. Возьмём множество из n словоформ (обычно берут примерно 200-500 часто употребляемых слов, иногда из этого списка исключают местоимения).
Теперь для каждого текста из корпуса можно найти z-оценку частоты употребления в нём каждой словоформы. Посмотрим, как рассчитать эту оценку для частоты i-ой словоформы (обозначим её wi) в j-ом тексте (Dj). Обозначим частоту употребления wi в Dj как fi(Dj) (т.е. fi(Dj)=(количество вхождений wi в Dj)/(количество слов в Dj). Пусть μi — средняя частота wi по корпусу, а σi — среднеквадратичное отклонение:
Тогда мы можем получить z-оценку (также называемую стандартизированной оценкой):
Рассмотрим какие-нибудь два текста, например, D1 и D2. Посчитаем дельту Бёрроуза, то есть «расстояние» между ними, так:
Таким образом, подставим формулу z-оценки в формулу Дельты, упростим ее и получим следующее выражение:
Мы заметили, что средние частоты μi сокращаются, что можно использовать для удобства вычислений. При этом формулу часто записывают в более полном виде, поскольку z-оценки важны для теоретического обоснования метода.
Чем меньше Δ(D1, D2), тем ближе по стилю тексты D1 и D2. А посчитав дельты для всех пар текстов, можно попытаться их классифицировать. Обычно для этого используют один из алгоритмов кластеризации, который объединяет в группы близкие друг к другу тексты. Например, тексты могут сгруппироваться по авторам, жанрам или периоду написания.
Почему это работает
Дельта Бёрроуза, как и другие похожие методы, основывается на следующей модели. Рассмотрим n-мерное пространство, в котором каждая ось соответствует некоторому из n слов. Каждому тексту в этом пространстве можно поставить в соответствие точку (или вектор). Координата точки по каждой оси равна частоте определенного слова в данном тексте. Степень сходства текстов — расстояние между точками, которые им соответствуют.
Это расстояние можно считать разными способами. Например, «по прямой» (так называемое евклидово расстояние) или складывать модули разности координат по каждой оси (манхэттенское расстояние). Однако эти способы плохо отделяют тексты одного автора от текстов другого. Среди более эффективных методов стоит отметить косинусное расстояние (т.е. косинус между двумя векторами).
В стилометрии (область занимается количественным измерением стиля текстов) чаще всего используют дельту Бёрроуза. Кратко принцип её действия можно описать так: разница между частотами конкретного слова в двух текстах тем важнее, чем меньше варьируется частота этого слова в целом по корпусу. Поэтому в формуле модули разности частот делятся на стандартное отклонение.
С 2001 года на основе дельты Бёрроуза было создано несколько других похожих методов, в частности, дельта Эдера (про неё можно почитать здесь).
Где и как используется дельта
Самая очевидная (и, вероятно, самая увлекательная) область применения дельты Бёрроуза — это атрибуция текстов, т.е. определение их авторства (здесь СБъ разбирал, кто автор «Сна в красном тереме»). Дельта Бёрроуза хорошо работает для текстов на английском, немецком, польском, арабском, русском и других языках. Для проверки эффективности метода исследователи брали корпуса из текстов, авторство которых уже известно. Метод дельты позволил правильно распределить тексты по авторам.
Поэтому если авторство неоднозначно, можно добавить в корпус текст с неопределенным автором и тексты авторов-кандидатов, а затем посчитать, к чему ближе спорный текст. Наиболее близкое расположение к текстам одного из кандидатов — аргумент в пользу его авторства. Стоит учитывать, что тексты должны быть достаточно длинными и жанр может влиять на стиль больше, чем авторство.
На основе вычисленных расстояний обычно строят дендрограмму — график в виде дерева, в котором похожие тексты оказываются в одной «ветке». Это позволяет распределить тексты по авторам и представить результат в наглядной форме.
На дендрограмме видно, что все части романа оказались собраны в одну «ветку» с «Донскими рассказами» отдельно от произведений других кандидатов на авторство: Севского, Серафимовича и Крюкова. «Поднятая целина», «Судьба человека» и «Они сражались за родину» оказались в другой «ветке», однако это можно объяснить их более поздним написанием. В корпус были включены также тексты других писателей — современников Шолохова, и дельта успешно сгруппировала их по авторам.
Определение авторства — не единственное применение дельты. С её помощью можно проследить за эволюцией стиля писателя в течение его жизни или сравнить разные переводы одного и того же произведения (об этом СБъ писал здесь).
Наиболее удобный инструмент для проведения стилометрических исследований — это библиотека Stylo на языке R. Она позволяет считать разные «дельты» с разными настройками и визуализировать результаты в виде дендрограмм или графиков других типов. Кроме того, в ней есть опция автоматического предсказания автора. У библиотеки удобный графический интерфейс, так что научиться ей пользоваться не составит труда.
Что ещё почитать про дельту Бёрроуза:
В этой работе дельту используют для определения авторства произведений Ильфа и Петрова. Кроме того, объясняется, как вычисляется дельта.
В статье Бориса Орехова и Натальи Великановой метод дельты показал, что наиболее вероятным автором «Тихого Дона» является сам Шолохов.
Обзорная статья о мерах стилистического расстояния и их математической сущности.
Здесь можно найти краткую историю стилометрии и подробную инструкцию для начала работы со Stylo.