Читать нас в Telegram
авторский текст
Иллюстратор: Юлия Бобкова

«Главная проблема цитат в интернете в том,
что люди сразу верят в их подлинность».
В.И. Ленин

Шекспир или не Шекспир? Гомер или не Гомер? Вопрос авторства тех или иных текстов всегда занимал людей. Чтобы понять, почему, нужно как следует осознать, насколько вообще текстоцентрична наша цивилизация: есть тексты религиозные, сакральные, за «верные» трактовки которых вспыхивали войны; есть тексты юридические, из-за разночтения в которых преступник может уйти от наказания, а невиновный человек пострадать; есть тексты политические, где неаккуратная формулировка может привести к военному или экономическому кризису.

Ладно, а какая разница, кто именно это написал?

Хрестоматийным ответом на этот вопрос можно считать историю с «Константиновым даром». Эта грамота передавала папе Римскому власть над западной частью Римской империи, так что такой документ был весьма на руку папам в их борьбе с императорами.

«Они утверждают, что город Рим — это их собственность, что им принадлежит королевство Сицилии и Неаполя, им принадлежит вся Италия, Галлии и Испании, германцы и британцы, им вообще принадлежит весь Запад, ибо все это содержится в тексте дарственной грамоты».

Неплохая заявка на победу в территориальных притязаниях. Однако Лоренцо Валла в своем «Рассуждении о подложности так называемой дарственной грамоты Константина» показал, что Константин Великий ничего никому не даровал. Его работа положила начало научной атрибуции текстов.

Определение авторства сегодня

Проблема авторства нередко возникает и сейчас. Эти исследования носят как теоретический, так и прикладной характер: например, британские суды принимают в качестве доказательства результат экспертизы по атрибуции текстов.

Идеальные условия для стилистической атрибуции текста таковы:

  1. текст длинный;
  2. число потенциальных авторов невелико (лучше всего, если их два);
  3. у текста нет соавторов или рецензентов, а редакторы и издатели внесли очень мало изменений;
  4. для каждого кандидата в авторы есть много достоверно атрибутированных текстов того же жанра и периода, что и исследуемый текст.

Соблюсти все эти условия получается крайне редко, однако, несмотря на это, можно получить весомые результаты. Компьютерная стилистика работает скорее с тенденциями, нежели с правилами: язык слишком вариативен.

Цифровые методы и компьютерная стилистика

Со времени Валлы наука шагнула далеко вперед. Для атрибуции текста сейчас используются статистические методы. «Системный Блокъ» уже писал про метод дельты Берроуза для определения автора «Сна в красном тереме», про вычисление автора под псевдонимом, про авторство пьес Мольера и про подлинность «Слова о полку Игореве».

Одной из сравнительно недавних работ в этом ключе стало исследование компьютерными методами древнеанглийской поэзии. Авторы исследования придерживались подхода, который получил название «лексомика» (его разрабатывал, в том числе, М. Дроут с коллегами).

Корпус древнеанглийской поэзии относительно небольшой, в нем всего около 350 текстов, 300 из которых короче тысячи слов. По большей части древнеанглийские тексты сохранились в относительно полных копиях, авторство или время создания многих неизвестно или не подтверждено. Сложно также определить их временной или географический контекст.

Один из способов хотя бы частично обойти ограничения — это извлечь как можно больше информации из того, что есть, сфокусировавшись на мелких сегментах текста (фразах, словах и даже паузах), которых довольно много даже в небольшом корпусе. В этой парадигме слово рассматривается как набор букв, ограниченный пробелами (т.е. cyning, kyning, cyninge и cyningas при таком подходе — это разные слова, а не разные варианты/формы одного и того же слова). Ученые признают, что такое определение слова может выглядеть сомнительно с лингвистической точки зрения, однако это существенно упрощает компьютерную обработку текста.

Функциональные n-граммы в работах одного автора, как правило, имеют сходный фонетический профиль. Чтобы определить фонетически различные древнеанглийские поэмы, исследователи рассчитали для каждого текста такой показатель:

где fi,t означает частоту i-той самой распространенной n-граммы в тексте, а fi,с означает частотность этой n-граммы в корпусе. Как видно из формулы, расчет делается для 5 самых распространенных n-грамм. На рисунке 1 показан график зависимости этой метрики от длины текста для триграмм.

Рисунок 1. График зависимости частоты функциональных триграмм (для пяти наиболее распространенных триграмм) от длины текста

Неудивительно, что многочисленные короткие поэмы, по-видимому, содержат n-граммы, которые отличаются от основного корпуса. Интересно, что три выделяющиеся поэмы («Видсид», «118-й псалм» и «Максимы II») отличаются от остальных и при анализе биграмм и тетраграмм (n-грамм длиной в 4 слова). Иными словами, они демонстрируют фонетические отклонения от относительно гомогенного фонетически корпуса древнеанглийской поэзии. Исследователи предполагают, что такое происходит, когда тема произведения оказывает сильное влияние на выбор автором источников.

Hwæt!

Ученые попытались ответить на вопрос: является ли «Беовульф» (кстати, о значении этого имени ученые все еще спорят) цельной работой одного автора или комбинацией нескольких текстов.

Как и в случае с другими значимыми памятниками литературы, анонимность «Беофвульфа» долгое время будоражила исследователей. Ученые много спорили о том, один автор у поэмы или несколько. В XIX веке многие ученые придерживались теории редакционного свода, согласно которой «Беовульф» состоял из нескольких языческих песен (лэ), объединенных христианскими редакторами. Подробнее об этой теории, выдвинутой К. Лахманом применительно к «Песни о нибелунгах», можно почитать у А. Хойслера. Там же есть и критика теории.

К середине XX века у этой точки зрения осталось мало сторонников, большинство склонялись к тому, что «Беовульф» — шедевр одного автора. Однако некоторые ученые считали, что «Беовульфа» составил редактор из двух разных текстов: о герое, сразившем Гренделя, и о герое, сразившем дракона. Тем не менее, в самом недавнем и всеобъемлющем исследовании датировки и авторства «Беовульфа» Л. Нейдорф привел широкий спектр лексических, метрических, стилистических и палеографических свидетельств в поддержку утверждения о том, что сохранившаяся рукопись «Беовульфа» содержит единое творение одного поэта, который сочинил поэму около 700 года.

Аргументы Л. Нейдорфа поддерживаются количественными методами компьютерной лингвистики. Он с коллегами разработал широкий набор параметров, отражающих важные для древнеанглийской поэзии особенности стихосложения, метра и стиля (а точнее, именных сложных слов).

Паузы имеют значение

В первую очередь были проанализированы возникающие в речи смысловые паузы, которые на письме отмечаются запятой или точкой. Поскольку древнеанглийские тексты не имеют пунктуации, знаки препинания в них расставляются редакторами на основе метрических и синтаксических закономерностей.

Исследователи подсчитали отношение внутристрочных и смысловых пауз в обеих частях «Беовульфа» (а также для всего корпуса текстов) по редакции Краппа-Добби. Получилось, что отношения для первой и второй части находятся в пределах 4% друг от друга. Аналогичный анализ «Беовульфа» был проведен и для редакции Ф. Клебера, результат оказался сходным. Это показывает, что редакторское вмешательство не повлияло на стилистические закономерности поэмы.

Чтобы подтвердить результаты анализа смысловых пауз в «Беовульфе», эти результаты сравнили с другими древнеанглийскими поэмами и древнегреческим эпосом.

Рисунок 2a. Отношение междустрочных и смысловых пауз

Известно, что одна из длиннейших древнеанглийских поэм «Книга Бытия» (Genesis) — это работа нескольких авторов, состоящая из более поздней части (Genesis B длиной около 600 строк) и более ранней (Genesis A длиной около 2300 строк), причем Genesis B включен в текст Genesis A. Отношение внутристрочных и смысловых пауз в Genesis A и Genesis B существенно различается, что подтверждает, что анализ смысловых пауз может применяться для различения древнеанглийских текстов одинаковой тематики, но разного авторства. Аналогично, сильно различаются и показатели для поэм «Христос I», «Христос II» и «Христос III», написанных несколькими авторами. А вот показатели для «Елены» и «Юлианы», созданных одним автором (Кюневульфом), очень сходны.

Как и «Беовульф», греческие эпосы «Илиада» и «Одиссея» также вызвали много споров об их авторстве и составе. Традиционно приписываемые одному автору, Гомеру, оба произведения, тем не менее, явно берут начало в давней устной традиции и демонстрируют признаки значительной эволюции в ходе истории их передачи, включая возможное влияние письменных версий. Поскольку у двух гомеровских эпосов есть много общих черт, ученые предположили, что у них также может быть похожий паттерн смысловых пауз.

Однако, как показано на рис. 2а, «Одиссея» имеет более высокую долю смысловых пауз по сравнению с «Илиадой». Это показывает, что композиционная практика двух поэм различна. Если бы по этому параметру две части «Беовульфа» различались так же или сильнее, чем «Илиада» и «Одиссея», это бы свидетельствовало об объединении двух отдельных произведений. Однако данные показывают, что композиционная практика обеих частей «Беовульфа» была одинаковой, по крайней мере, в отношении смысловых пауз.

Метр имеет значение

Следующим этапом стал анализ метра «Беовульфа». Для этого использовалась классификация, предложенная Сиверсом, который делит полустроки на пять основных звуковых паттернов (типы A, B, C, D и E). Были исследованы как общая частота пяти типов, так и их последовательность в «Беовульфе». Оказалось, что уровень использования каждого типа остается линейным по всему тексту, без заметного сдвига в районе строки 2300 (конец первой части поэмы).

Рисунок 2b. График использования различных метров в «Беовульфе»

Наконец, было рассмотрено распределение сложных (составных) существительных по тексту «Беовульфа» и по всему корпусу древнеанглйской поэзии. Сложные существительные — важная черта древнеанглийской поэзии. Такие примеры, как hran-rád «море» (букв. «дорога китов») и bán-hús «тело» (букв. «дом костей») представляют собой типичные кеннинги, которые были широко распространены в древнеанглийской (и древнескандинавской) поэзии. Исследователи составили список сложных существительных на основе словаря Босворта-Толлера, взяв все существительные, состоящие из двух слов и соединенные дефисом (не все из них при этом являются кеннингами).

Сначала были рассмотрены различия между авторами в использовании гапаксов (гапакс — слово, встретившееся в некотором корпусе текстов только один раз). Доля гапаксов в текстах разных авторов сильно разнится, как прекрасно видно на примере «Книги Бытия» (Genesis).

Рисунок 4a. Гапаксы в «Книге Бытия»

Для сравнения, поэма «Исход» (Exodus), чье создание одним автором никогда не оспаривалось, демонстрирует явную гомогенность в этом отношении.

Рисунок 4b. Гапаксы в «Исходе»

Частота употреблений сложных существительных-гапаксов, т.е. таких, каждое из которых появилось лишь однажды во всем тексте (hapax legomena), в «Беовульфе» линейна по всему тексту, без изменений в области строки 2300. Небольшая нелинейность около строки 1500 соответствует битве Беовульфа с матерью Гренделя. Это место в поэме изобилует сложными словами.

Рисунок 2c. Гапаксы в «Беовульфе»

Авторы исследования полагают, что их результаты, свидетельствующие о стилистической однородности «Беовульфа» хоть не доказывают абсолютно точно, что стихотворение является работой одного человека, но сильно повышают такую вероятность.

А что «Андрей»?

Была ли анонимная поэма «Андрей» написана Кюневульфом? Четыре древнеанглийских поэмы («Елена», «Юлиана», «Христос II» и «Судьбы апостолов») заканчиваются эпилогом, где указано имя «Кюневульф». Однако часть ученых ставят под сомнение, следует ли считать Кюневульфа автором этих произведений, поскольку теоретически возможно, что Кюневульф добавил свои эпилоги к стихотворениям, первоначально сочиненным другими авторами. Группа Л. Нейдорфа постаралась опровергнуть эту точку зрения, продемонстрировав высокую степень стилистической однородности трех из четырех подписанных работ Кюневульфа.

Для этого они сначала сравнили использование гапаксов в десяти поэмах (три контрольных текста, точно не созданных Кюневульфом — «Беовульф», «Исход» и «Христос и сатана»; четыре текста, подписанных Кюневульфом; и три текста, часто ассоциирующихся с Кюневульфом — «Андрей», «Феникс» и «Гутлак В»).

Рисунок 4c. Гапаксы в разных текстах

Три контрольных поэмы, которые, как считается, были написаны разными авторами в разные периоды, демонстрируют различные модели использования сложных слов. Однако стихи, подписанные Кюневульфом, похожи друг на друга (хотя «Христос II» демонстрирует меньшую связь с другими произведениями) и на «Андрея». Этот результат побудил ученых изучить сходство «Андрея» со стихами Кюневульфа на основе более широкого диапазона сложных существительных, помимо гапаксов.

Выбор конкретного сложного существительного формирует важную часть стиля древнеанглийского автора. На рисунке 3 представлено распределение неуникальных сложных существительных в шести поэмах (подписанные Кюневульфом — синие круги, возможное авторство Кюневульфа — красные круги) и в «Беовульфе» (серые). Размер каждого круга показывает количество сложных существительных, совпадающих для соответствующих пар текстов. Размер пунктирных кругов показывает ожидаемое количество сложных существительных, при условии, что их распределение случайно. (Нижний правый круг демонстрирует результат сравнения двух частей «Беовульфа».)

Рисунок 3. Распределение неуникальных сложных существительных в шести поэмах

По этому параметру «Андрей» сильно коррелирует с поэмами Кюневульфа.

Затем исследователи подсчитали частотность 25 самых распространенных триграмм в 50 самых длинных поэмах («Беовульф» был поделен на две части). На полученной дендрограмме видно, что «Андрей» оказался в одном кластере с «Еленой», а также рядом с «Юлианой», «Христом I/II/III» и «Судьбами апостолов». Анализ биграмм и тетраграмм показал сходные результаты.

Рисунок 4. Триграммы в 50 самых длинных поэмах. Номера текстов: «Андрей» (2), «Елена» (5), «Юлиана» (9), «Христос» (3), «Судьбы апостолов» (38), «Беовульф» (первая часть 1, вторая часть 6).

Авторы исследования признают, что их результаты не доказывают полностью, что «Андрей» был написан Кюневульфом, но считают их серьезными аргументами в пользу этой версии.

Критика исследования

Научные эксперименты отличает важное свойство, а именно воспроизводимость. Группа ученых (Plecháč et al.) попыталась воспроизвести это исследование и пришла к выводу, что все четыре главных характеристики, которые были использованы для «количественного профилирования» древнеанглийской поэзии, либо имеют методологически сомнительные параметры (что ведет к неверной интерпретации результатов атрибуции текстов), либо неоптимальное воплощение, либо и то, и другое.

Критики также нашли серьезные ошибки в коде и никак не объясненные пропуски в данных, а одну часть результатов не получилось воспроизвести. Недостатки методологии ставят под вопрос главные выводы исследования.

Кроме того, в современной компьютерной стилометрии большая часть времени тратится не на установление атрибуции, а на тщательную оценку и тестирование методов и характеристик в контролируемых условиях, что необходимо для того, чтобы учесть в выводах различающую способность каждого метода. Есть методы, которые хорошо могут подтверждать свою достоверность на очень разных текстах, что повышает доверие к таким методам. Однако примененный в работе к таковым не относится, а значит, высока вероятность неинформативного, попросту случайного результата.

Источники