Читать нас в Telegram

Каждый раз, когда я рассказываю о стилометрии русскоязычной аудитории, первым прилетает один и тот же вопрос: «а что Шолохов? Писал он “Тихий Дон” или нет?». Я решил вспомнить историю применения статистических методов к «Шолоховскому вопросу», подсобрать то, что мы знаем из работ современных стилометристов по атрибуции авторства «Тихого Дона» (спойлер: там есть более-менее консенсус), а также еще разок воспроизвести их эксперименты сам. Ну а для тех, кто каким-то чудом избежал знакомства с бесконечной битвой «антишолоховедов» с шолоховедами, есть еще пунктирное введение в историю вопроса — заведомо неполное, но дающее общее представление о спектре версий и объеме дискуссии. 

Почему вопрос авторства Шолохова вообще возникает?

Подозрения в том, что Михаил Шолохов написал «Тихий Дон» не сам, возникли еще в конце 1920-х, когда роман только создавался. Шолохов, по собственным утверждениям, начал писать роман в 1925-1926, т.е. в возрасте 20-21 года — по меркам литераторов, а тем более по меркам авторов большой прозы, это ранняя юность. Части будущего первого тома начали публиковаться в январе 1928 в журнале «Октябрь». Шолохову тогда не было и 23 лет.  

Оглавление первого номера журнала «Октябрь» за 1928 год, в котором была опубликована первая часть «Тихого Дона». Источник.

Книга быстро завоевала популярность, но юный возраст Шолохова, отсутствие у него формального образования и его стремительный переход от небольших рассказов к эпическому роману вызвали подозрения в плагиате. Шолохов и его друзья по литературному цеху (например, Александр Серафимович и Александр Фадеев) обвинения отвергали. 

Дальше случилось как в анекдоте: доказать тогда ничего не удалось, но осадочек остался. Подозрения преследуют Шолохова по сей день. А борьба «антишолоховедов» с шолоховедами стала одной из Олимпийских дисциплин русскоязычного культурного пространства — советского, эмигрантского и постсоветского.

Какие есть альтернативные кандидаты в авторы «Тихого Дона»? 

Главных кандидатов двое: это Фёдор Крюков и Вениамин Краснушкин (он же Виктор Севский). Оба происходили из донских казаков, оба были литераторами и журналистами, оба — свидетели и участники сначала Первой мировой, а затем Гражданской войны на Дону на стороне белых. Оба бесследно пропали в 1920-м году.

Лагерь сторонников «Крюковской версии» особенно велик, богат известными именами (писатель Александр Солженицын, филолог Ирина Медведева-Томашевская, историк Рой Медведев) и плодовит публикациями. Одним из первых об авторстве Крюкова стал писать еще в 1930-е годы публицист-эмигрант Иван Солоневич. Нашим современником и давним приверженцем Крюковской версии, поэтом и переводчиком А.Ю. Черновым составлен целый «Параллельный словарь диалектизмов, речевых клише и авторских тропов» Фёдора Крюкова и «Тихого Дона», а также написана книга «Тихий Дон Фёдора Крюкова». Общее же число публикаций в пользу этой версии исчисляется сотнями, включая не менее десятка книг.

Федор Крюков. Источник

Из сторонников Краснушкина выделяется советско-израильский филолог Зеев Бар-Селла, автор монографии «Литературный котлован. Проект “Писатель Шолохов“» и множества статей, как академических, так и чисто публицистических. Как и упомянутый выше А.Ю. Чернов, Бар-Селла практически полностью отказывал Шолохову в самостоятельном авторстве каких-либо литературных произведений. Отдавая «Тихий Дон» Краснушкину, он приписывал незаконченный роман «Они сражались за Родину» Андрею Платонову, а «Поднятую целину» объявлял компиляцией из разных текстов, в том числе из того же источника, что и «Тихий Дон» (по версии Бар-Селлы, Шолохов вставил в роман 1930-х годов о коллективизации пейзажи из гипотетического первоисточника времен Гражданской войны). 

Вениамин Краснушкин. Источник

Кроме Крюкова, Краснушкина-Севского и Платонова, еще один известный «альтернативный автор» Шолоховских текстов — Александр Серафимович (настоящая фамилия — Попов), тоже по происхождению из донских казаков, как Крюков с Краснушкиным. Серафимовича подозревают по совокупности косвенных биографических причин: он активно содействовал публикации романа, был главным редактором журнала «Октябрь» в годы, когда там печатался «Тихий Дон» (но уже в 1929 оставил пост), при этом в его собственном творчестве после вышедшего в 1924 году романа «Железный поток» наступило некоторое затишье, крупных текстов он больше не писал. 

Александр Серафимович. Источник.

Эта версия (заметно более маргинальная, чем «Крюковская» и «Краснушкинская») интересна тем, что Серафимович был одним из главных защитников авторства Шолохова и даже возглавлял в конце 1920-х комиссию по установлению истины вокруг «Тихого Дона». Это, в свою очередь, породило популярную комбинированную теорию: автор «Тихого Дона» все-таки Крюков, но Серафимович — автор всей мистификации с Шолоховым, который таким образом решил спасти выдающийся текст своего земляка Крюкова от советской цензуры, сделав его автором молодого пролетарского писателя Шолохова вместо белого казака. 

Учитывая такой комбинаторный потенциал теорий альтернативного авторства «Тихого Дона», т.е. их способность скрещиваться друг с другом и порождать новые, изложить здесь все версии невозможно. Даже простое перечисление всех работ, в которых предлагается та или иная версия, заняло бы слишком много экранного пространства. Есть десятки людей, в том числе очень талантливых и эрудированных, которые положили годы, а то и десятки лет на исследование обстоятельств, выстраивание и изложение версий. В чем-то «антишолоховедение» напоминает хорошо развившееся сообщество писателей фанфиков по одной общей вселенной — со своими локальными шедеврами, публикациями на бумаге в реальных издательствах (не редкость для удачных фанфиков), своими авторитетами и внутренними спорами. А ведь параллельно ему существует и не менее объемное «ортодоксальное» шолоховедение, где тоже ведутся исследования, выстраиваются контр-гипотезы и пишутся тексты (опять же, как академические, так и публицистические), утверждающие авторство Шолохова. 

«антишолоховедение» напоминает сообщество писателей фанфиков по одной общей вселенной

Все это совершенно необъятно. Поэтому сейчас я сфокусируюсь на очень конкретном узком спектре исследований вокруг «Тихого Дона»: на применении количественных (статистических) методов. Разбор безбрежной около-шолоховской текстологии с её поиском отдельных текстовых улик, крючков и подозрительных языковых параллелей оставим для следующего раза. Как и версии, основанные на чисто биографических сближениях  и совпадениях.

«Научный анекдот»: как к Шолохову пытались применять «точные методы» и почему они не дали никакой точности 

История применения количественных методов к Шолоховскому вопросу кратко изложена в работе Б.В. Орехова и Н.П. Великановой [Великанова, Орехов, 2019], которая вообще служит главной отправной точкой этого текста. Есть два наиболее известных примера ранного (XX век) количественного шолоховедения: работа шведско-норвежских исследователей во главе с профессором-русистом из Осло Г. Хьетсо [Хьетсо, 1989] и исследование советских ученых В.П. и Т.Г. Фоменкo [Фоменко, Фоменко, впервые 1983]. Я опишу их чуть более подробно. 

Перфокарты и длины предложений

Группа Хьетсо начала работать еще в 1975 году. Толчком к их работе стала вышедшая годом ранее в Париже книга Ирины Медведевой-Томашевской «Стремя “Тихого Дона” (загадки романа)», где продвигалась «Крюковская гипотеза». Поскольку в 1970-е в качестве средства ввода информации в ЭВМ использовались бумажные перфокарты, первым шагом было именно цифровое кодирование текстов Шолохова на перфокартах. Перфорирование и ввод данных проделывали шведские ученые из Стокгольма и Упсалы. Вероятно, это была первая в истории оцифровка текста «Тихого Дона» (пусть и неполная) и, возможно, одна из первых оцифровок текстов классической русской литературы в принципе.   

Гейр Хьетсо. Источник.

Исследователи отобрали по ~50 000 слов художественных текстов Шолохова и Крюкова, а также фрагменты «Тихого Дона» (взяты ранние издания; сравнивали прежде всего 1–2-й тома, т.к. именно их чаще приписывали Крюкову). Фрагменты отбирались методом случайной выборки. Для равномерности ученые разделили корпуса авторов на «ранние/поздние» периоды каждого автора. Из анализа вручную исключали прямую речь и «мысли» героев, чтобы сравнивать именно авторский нарративный стиль.

Для сравнения текстов команда Хьетсо взяла такие признаки:

  1. средняя длина предложения и её распределение;
  2. распределение длин слов;
  3. распределение частей речи в начале и в конце предложения;
  4. общее распределение частей речи (POS-тегов)
  5. «коэффициент словарного состава» (мера лексического разнообразия, близкая к современной type-token ratio). 

«Бесспорно» Шолоховские тексты, с которыми ученые сравнивали текст «Тихого Дона», были представлены ранней короткой прозой (рассказы и повести 1920-х годов, включая цикл «Донские рассказы») и романом «Поднятая целина», написанным в 1930-е. Важно отметить, что в середине 1970-х сомнений в авторстве этих текстов еще не высказывалось — спор шёл исключительно о романе «Тихий Дон», а не обо всём, что выходило от имени Михаила Шолохова (это будет существенно не только в рамках работы Хьетсо, но и для всего дальнейшего обсуждения).   

Хьетсо и коллеги установили, что у Шолохова и «Тихого Дона» близки распределения длин предложения (пик на 6–10 слов), тогда как у Крюкова распределение иное.  

Источник: [Хьетсо и др., 1989, стр. 87]

Средние значения Шолохова ≈ 12,9 и «Тихого Дона» ≈ 12,4 также значительно ближе, тогда как у Крюкова — 13,9 слова. То же касается и распределения долей различных частей речи в текстах, точнее, в начале и в конце предложений. 

Источник: [Хьетсо и др., 1989, стр. 65]

По этому параметру исследователи так же проводили статистические тесты. Они применяли χ²-критерий Пирсона с уровнями отсечки 95%. При сравнении «Крюков ↔ Тихий Дон» по распределению частей речи получали χ²≈ 51,3 (гипотеза «Тихий Дон распределён как Крюков» отвергается), а для «Шолохов ↔ Тихий Дон» χ²≈ 2,41 (совпадает в пределах нормы, т.е. отвергнуть гипотезу, что распределение в текстах Шолохова такое же, как в Тихом Доне, невозможно). Таким образом, результаты исследования Хьетсо и коллег свидетельствовали не в пользу версии об авторстве Крюкова и указывали на вероятное авторство Шолохова.

Русское издание книги Хьетсо, Густавссона, Бекмана и Гила вышло в 1989 году. [Хьетсо и др., 1989]

Если вам показалось, что написанное выше звучит убедительно, то вы попались в ловушку «очарования циферками». Как писал герой одного нашего давнего интервью, «Хочешь кого-то обмануть — покажи ему циферку». Это, разумеется, художественное упрощение, но это известная проблема количественных методов: само наличие в работе математического аппарата как бы делает выводы достовернее. 

Однако проблема в том, что в тексте можно посчитать очень много что. Длину предложения, долю именных сказуемых, распределение букв “о”, упоминание имен собственных… И для всего этого будет какое-то численное выражение. Вот только откуда мы знаем, что тот или иной параметр связан с авторством?

откуда мы знаем, что тот или иной параметр связан с авторством?

Здесь всё как с известным сайтом про случайные корреляции. Популярность замороженного йогурта может в какой-то момент довольно долго коррелировать с насильственной преступностью, вот только вряд ли можно по потреблению йогурта прогнозировать преступления.

Корреляция потребления замороженного йогурта в США с насильственной преступностью. Источник.

Возьмем, к примеру, среднее число слов в предложении. Действительно, среднее значение Тихого Дона — 12.4, а у тех текстов Шолохова, что были взяты для сравнения, — 12.9. Но неужели в литературе нет других писателей или текстов, которые ближе к «Тихому Дону», чем усредненный Шолохов? Конечно, есть! Например, в романе Фёдора Достоевского «Игрок» этот показатель — 12.7, а в романе Даниила Мордовцева «Двенадцатый год» — 12.9.

Специально для этого случая я посчитал среднюю длину предложения на корпусе из 543 русских романов XIX и начала XX века —  и там нашлось 46 текстов сорока различных авторов со средней длиной предложения между 12.4 и 13.0 включительно. Иначе говоря, сегодня нам довольно легко проверить, что среднее число слов в предложении не является маркером авторства текста. То же касается и других признаков, взятых командой Хьетсо. Ни для одного из них не было показано, что метод применим в общем случае, т.е. что признак действительно разграничивает тексты по автору.   

сегодня довольно легко проверить, что среднее число слов в предложении не является маркером авторства текста

Разумеется, это нельзя поставить группе Хьетсо в упрек: их исследование происходило почти полвека назад и было пионерским в своем роде, когда оцифрованных данных в сегодняшнем смысле практически не было, а подходы к статистическому анализу текстов и количественной атрибуции авторства лишь разрабатывались. Для своего времени это было пионерское исследование. То, что потребовало от меня пары минут на генерацию кода и еще минуты на его запуск на уже готовом оцифрованном корпусе, занимало у шведских коллег Хьетсо месяцы работы с перфокартами.  Тем не менее дальнейшее развитие науки показало, что их метод не является надежным способом проверки авторства. 

Не очень корректный, но очень подходящий мем. Источник.

Супруги Фоменко и служебные слова

То же самое можно сказать и о работе супругов В.П. Фоменко и Т.Г. Фоменко [Фоменко, Фоменко, впервые 1983], филолога и инженера добывающей промышленности соответственно. Вероятно, это был один из первых «цифро-гуманитарных тандемов» в истории советской науки. 

В.П.Фоменко и Т.Г.Фоменко. Источник.

Надо отдать должное: в этом исследовании авторы изначально попытались выявить признак, который действительно был бы различителен для авторства в общем случае. До работы с Шолоховым, Крюковым и «Тихим Доном», В.П. Фоменко и Т.Г. Фоменко сделали очень солидную по широте охвата выборку фрагментов текстов классиков русской литературы XVIII — XX века. Для всех фрагментов считались такие признаки: 

1) длина предложений (среднее число слов в предложении, подсчитанное для каждой выборки),

2) длина слов в слогах  (среднее количество слогов в слове, подсчитанное для каждой выборки),

3) доля служебных слов — предлогов, союзов, частиц (процент служебных слов в каждой выборке),

4) доля существительных (их процентное содержание в каждой выборке),

5) частота употребления глаголов, то есть их процентное содержание в каждой выборке.

6) доля прилагательных (в процентах),

7) доля предлога «в» (в процентах),

8) доля частицы «не» (в процентах),

9) количество служебных слов в предложении.

В.П. и Т.Г. Фоменко показывают, что наиболее хорошо с авторством коррелирует третий признак —  доля служебных слов. В ряде их экспериментов для одного и того же автора этот признак очень однороден, а между авторами значения заметно различаются. Как, например, показано в этой таблице средних для Ивана Тургенева (среднее 22,24 со стандартным отклонением 0,016) и Льва Толстого (среднее 23,62 со стандартным отклонением 0,02) — см. колонку 3, это как раз третий признак:

Источник:  [Фоменко, Фоменко, впервые 1983]

Сегодня мы знаем, что ученые были недалеки от истины — авторский сигнал действительно содержится в значительной степени в том, как распределены в тексте именно служебные слова. Вообще к мысли о важности служебных слов для авторской атрибуции ученые приходили многократно, впервые еще на рубеже XIX и XX веков. 

Однако одного лишь среднего показателя недостаточно, и это видно в самой работе [Фоменко, Фоменко, впервые 1983] — скажем, показатели для Николая Гоголя распределены так же, как для Льва Толстого, просто их В.П. и Т.Г. Фоменко напрямую не сравнивают. Но если их поставить рядом, то метод уже не выглядит надежно:

Источник:  [Фоменко, Фоменко, впервые 1983]

Таким образом, в этой работе тоже не был найден стабильно (а не от случая к случаю) работающий метод — хотя супруги Фоменко и были гораздо ближе к современным проверенным стилометрическим методам, чем команда Хьетсо с длинами предложений. 

Зная все это, вы уже не удивитесь, что две работы — каждая на основе своего точного математического аппарата — получили противоположные результаты. Если Хьетсо и коллеги показывали, что «Тихий Дон» скорее принадлежит Шолохову, чем Крюкову, то у супругов Фоменко вышло наоборот. Средняя доля служебных слов в исследованных ими текстах Крюкова (21,11) оказалась заметно ближе к среднему для выборки из «Тихого Дона» (19,55),  чем средняя доля в исследованных текстах Шолохова (23,03). «[И]з приведенных результатов, по-видимому, следует, что предположение о соавторстве Крюкова — не праздный слух», заключают В.П. и Т.Г. Фоменко [Фоменко, Фоменко, впервые 1983].  

две работы — каждая на основе своего точного математического аппарата — получили противоположные результаты. 

В  [Великанова, Орехов, 2019] это тотальное расхождение выводов двух самых известных экспериментов по атрибуции «Тихого Дона» остроумно названо «научным анекдотом». Однако за анекдотом стоит серьезная проблема доверия к количественным методам в целом: 

«Научный анекдот состоит в том, что исследователи получили противоположные результаты. Несмотря на декларированный подход, основанный на бесстрастной математике, попытка решения вопроса об авторстве романа не только не привела к искомому результату, но и создала неприятную ситуацию инфляции доверия к количественным аргументам в научной дискуссии. В самом деле, если в теории подсчёты должны оградить нас от влияния политики и эмоций, но на практике допускают противоположные трактовки, может быть, использующие их авторы точно так же оказываются в плену своих взглядов и просто ищут в цифрах подтверждения априорной убеждённости?» [Великанова, Орехов, 2019] 

«Научный анекдот» отлично дополняет и третье заметное количественное исследование, произведенное уже на рубеже XX и XXI века. Речь идет о третьей главе книги «В поисках потерянного автора: Этюды атрибуции» коллектива авторов во главе с М. А. Марусенко, вышедшей в Санкт-Петербурге в 2001 году [Марусенко и др., 2001]. 

Обложка книги [Марусенко и др., 2001]

Эта работа, чуть менее известная в среде (анти)шолоховедов, примечательна тем, что в ней использован третий метод — и получен третий альтернативный результат, совершенно противоречащий и выводам Хьетсо с коллегами, и результатам супругов Фоменко. 

Коллектив М.А. Марусенко в работах по атрибуции опирается на собственный сложно организованный набор из 54 признаков. К ним относятся признаки, связанные с синтаксической структурой предложения / клаузы (среди них число слов в простом самостоятельном предложении, число одиночных клауз в предложении, разные типы подчинения и сочинения), распределение различных частей речи, доля служебных слов, распределение синтаксических функций и др. При этом в каждом случае атрибуции авторства выбирается (полуавтоматическим способом) подмножество признаков, которое работает на конкретном корпусе текстов. То есть в конечном счете метод, хотя и существенно более сложный, чем описанные выше, снова работает по принципу ad hoc: измеряемые параметры подбираются под конкретный эксперимент.  

Вывод же работы [Марусенко и др., 2001] состоит в том, что автор «Тихого Дона» — Серафимович (то есть у научного анекдота про «точные методы» теперь целых два панч-лайна). Причем основной автор главы М.А. Аникин в выводах звучит гораздо категоричнее, чем принято в области количественной атрибуции авторства. Он утверждает, что «работа подводит итог в затянувшейся полемике вокруг авторства романа, внося окончательную ясность в проблему». [Марусенко и др., 2001, стр. 176]. По словам М.А. Аникина, по итогам исследования «все становится на свое место окончательно и бесповоротно» [там же]. 

Разумеется, после выхода этого «окончательного и бесповоротного» исследования, которое внесло «окончательную ясность», вышло еще множество статей других исследователей с другими методами, пришедших к другим выводам. Из значимых работ здесь стоит упомянуть в первую очередь серию исследований Л. Эрлиха и М. Михеева [Михеев, Эрлих, 2017], [Михеев, Эрлих, 2018].

Что меняет (и чего не меняет) появление метода Delta 

Начало XXI века — время рождения современной стилометрии, основанной на методе Delta и его вариациях. Сила этого метода — в универсальности. Если взять несколько романов автора А на любом языке и несколько романов автора Б на том же языке, удалить информацию об авторстве, а затем произвести стилометрическую кластеризацию текстов на основе Delta — тексты А и тексты Б сгруппируются в две явственные кучки. Это проверено на десятках языков и текстах самого разного времени. Я лично проверял это на текстах на русском, английском, немецком и армянском, и тексты (по крайней мере большие тексты!) стабильно группировались по автору. 

Пример работы метода Delta на романах четырех русских писателей второй половины XIX века (романы разделились на четыре авторских кластера). 

Даже если тексты А будут написаны мной, автором этого текста, а тексты Б — тобой, читатель этого текста, Delta сработает. Подделать стилометрический сигнал и сымитировать другого автора чрезвычайно сложно — таких случаев до сих пор не было. Науке известны лишь случаи, когда один автор в процессе творчества менял свой стиль настолько, что стилометрически выглядел как два или более разных автора. Но целенаправленно замаскироваться под какого-то другого конкретного человека не удавалось еще никому.

Метод Delta основан не на каком-то одном признаке в тексте, а на измерении совокупных колебаний в частотностях сразу множества слов в отдельном тексте — относительно их общей частотности во всем наборе текстов, участвующих в эксперименте. Каждый текст оказывается представлен сразу 100-200-300 численными признаками. Каждый из них в отдельности — например, частотность слова «в» — обладает малой различительной силой. Но как удачно сформулировал К. Маслинский, перефразируя создателя метода Delta Дж. Ф. Барроуза: «объединение множества признаков со слабой различительной силой оказывается неожиданно устойчивым и надежным способом предсказывать авторство текстов» [Маслинский, 2022]. 

Так и есть. И именно при помощи Delta авторство Шолохова исследовали  Б.В. Орехов и Н.П. Великанова [Великанова, Орехов, 2019]. Для эксперимента они собрали корпус текстов, где помимо текстов Шолохова («Тихий Дон», «Поднятая целина», «Судьба человека», рассказы 1920-х годов) были также тексты «альтернативных претендентов» на авторство — Федора Крюкова, Вениамина Краснушкина (В. Севского), Александра Серафимовича, а еще тексты нескольких современников: Платонова, Фадеева, Фурманова, Леонова, Булгакова, Н. Островского и Вс. Иванова. 

Проделав множество экспериментов с разным набором признаков, ученые получили следующий результат: тексты четырех томов «Тихого Дона» образуют единый кластер с текстами короткой прозы Шолохова (под заголовком «Донские рассказы» в этом эксперименте выступали не только рассказы из одноименного сборника, но и прочие рассказы и повести 1920-х годов). 

Источник:  [Великанова, Орехов, 2019]

Кстати, эту работу можно воспроизвести на основе данных, которые выложены авторами в Репозиторий открытых данных по русской литературе и фольклору ([Орехов, 2020]). Я проделал это при помощи пакета Stylo (кстати, у «Системного Блока» есть гайд по Stylo, пройдя который вы тоже освоите Stylo достаточно, чтобы это воспроизвести) — и получил абсолютно идентичный график:

Источник: воспроизведение Д.Скоринкина на данных [Орехов, 2020] при помощи пакета Stylo для языка R

Что следует (и чего не следует) из этих результатов? Во-первых, как мы видим, Delta хорошо группирует здесь известных авторов — Булгакова с Булгаковым, Платонова с Платоновым, Иванова с Ивановым, Леонова с Леоновым и т.п. Во-вторых, мы видим, что Delta не показывает никакого сближения текста «Тихого Дона» с текстами Фёдора Крюкова. Нет пересечения и с Серафимовичем. Одинокий текст Севского также оказывается от «Тихого Дона» дальше, чем даже Вс. Иванов, которого уж точно никто не подозревал в авторстве романа. Единственный текстовый файл, который имеет дистанцию до «Тихого Дона», соответствующую в этом эксперименте расстоянию между текстами одного автора, — это файл короткой прозы Шолохова, озаглавленный как «Донские рассказы». Б.В. Орехов и Н.П. Великанова делают из этого следующий вывод: 

«[А]втор «Тихого Дона» должен одновременно быть и автором «Донских рассказов», причём больше всего на них похож именно первый том романа, который чаще всего приписывают не Шолохову, а какому-либо кандидату из пула претендентов на авторство, оставляя за Шолоховым право претендовать на финальную часть эпопеи. Такое представление ситуации маловероятно: первый том «Тихого Дона» и «Донские рассказы» писал один и тот же человек и, как известно, в одно и то же время, во второй половине 1920-х годов. […] главный вывод однозначен – если признавать «Донские рассказы» за Шолоховым, то именно он написал и все части «Тихого Дона». Другие претенденты, включённые в наше рассмотрение, не имеют шансов быть названными авторами романа». [Великанова, Орехов, 2019]

С другой стороны, мы видим что прочие тексты Шолохова — «Поднятая целина», «Они сражались за Родину» и «Судьба человека» — образуют отдельную группу. Это несколько ослабляет аргументацию статьи (ведь Шолохов не образует такого же единого цельного авторского кластера, как все прочие авторы в эксперименте). Хотя в целом стилометрии известно множество случаев, когда авторский стиль значительно менялся и один автор распадался на две и более подгруппы произведений. Возможно, при расширении выборки писателей так будет вести себя не только корпус текстов Шолохова, но и чей-то еще. В имеющихся же результатах гораздо существеннее, что нет совершенно никаких сближений между «Тихим Доном» — и текстами всех участвовавших в эксперименте претендентов (Крюкова, Краснушкина, Серафимовича, Платонова).   

нет никаких сближений между «Тихим Доном» — и текстами всех участвовавших в эксперименте претендентов (Крюкова, Краснушкина, Серафимовича, Платонова)

Уточненную версию того же исследования с дополнительно очищенным списком слов (были удалены, например, собственные имена персонажей, которые могут искажать стилометрические результаты) представил К.А. Маслинский в 2022 году [Маслинский, 2022]. В этой работе показано, что при уточненном списке слов четвертый том «Тихого Дона» стилометрически сильно отстоит от прочих. Первые три тома «Тихого Дона» (писавшиеся в 1928-1932) по-прежнему ближе всего сходятся с текстами короткой прозы Шолохова (Донские рассказы, а также прочие рассказы и повести 1920-х годов). Четвертый же том, писавшийся позже и значительно дольше (1932–1938), в эксперименте К.А. Маслинского уже примыкает к более поздним произведениям Шолохова, группирующимся во второй Шолоховский кластер:

Источник:[Маслинский, 2022]; пояснения красным — Д. Скоринкин

Вывод уточненного исследования К.А. Маслинского сформулирован так:

 «Результаты описанных в этой заметке экспериментов позволяют с еще большей уверенностью подтвердить, что стилеметрические данные не поддерживают гипотезы об авторстве Крюкова, Севского и Серафимовича. Однако в первой части вывод следует уточнить: результаты применения Delta указывают на то, что «Донские рассказы» и первые три тома «Тихого Дона» написал один автор. На основании этого анализа четвертый том нельзя с уверенностью приписать тому же автору».  [Маслинский, 2022]

Также параллельно с исследованием [Великанова, Орехов, 2019] вышла еще одна работа с применением Delta — исследование М. Иосифян и И. Власова [Iosifyan, Vlasov, 2020]. Там исследование проводилось на меньшем материале и не только при помощи Delta, но итог —   стилометрически «Тихий Дон» похож на «Донские рассказы» и очень далек от текстов Крюкова — полностью согласуется с выводами статей [Великанова, Орехов, 2019] и [Маслинский, 2022].

Подведем некоторые итоги применения Delta к проблеме авторства Шолохова

Итак, современная стилометрия — [Великанова, Орехов, 2019],  [Iosifyan, Vlasov, 2020] и [Маслинский, 2022] — показывает, следующее:

  1. Есть неразрывная стилометрическая близость ранней короткой прозы, выходившей в 1920-е под именем Михаила Шолохова, и текста «Тихого дона» (как минимум первых трех томов);
  2. Отсутствуют какие-либо сближения каких бы то ни было текстов Шолохова с текстами других известных предполагаемых кандидатов (Крюкова, Краснушкина, Серафимовича, Платонова);
  3. Тексты, автором которых считается Шолохов, стилометрически неоднородны и ведут себя в стилометрическом эксперименте иначе, чем тексты других современных ему авторов;
  4. В отдельные стилометрические кластеры выделяются группа более ранних и группа более поздних текстов, автором которых считается Шолохов, что, однако, соответствует и другим известным случаям влияния эволюции авторского стиля во времени на результаты стилометрических экспериментов.

Значит ли это, что вопрос авторства «Тихого Дона» решен стилометрией?

Нет, не значит. Современная стилометрия действительно оставляет мало шансов некоторым гипотезам альтернативного авторства «Тихого Дона». Например, учитывая близость ранней короткой прозы Михаила Шолохова с текстом «Тихого Дона» и одновременно с этим полную стилометрическую несхожесть «Тихого Дона» с известными нам текстами Фёдора Крюкова, очень трудно поверить в версию, что роман, или даже только первые его тома, был написан Крюковым и украден Шолоховым. Особенно учитывая, что именно контраст между «Донскими рассказами» (в которых многие видят очевидную про-большевистскую ангажированность и при этом сравнительную художественную слабость) и «Тихим Доном» (в которых наоборот усматривают политически неоднозначную авторскую позицию, вплоть до апологии белого казачества, и при этом высочайшее художественное достоинство) часто использовался как аргумент за «Крюковскую версию». То есть даже значительная часть «Крюковского лагеря» оставляла Шолохову его раннюю прозу, оспаривая лишь «Тихий Дон». Теперь, когда стилометрия показывает близость той самой ранней прозы к «Тихому Дону», это становится сильным аргументом против «Крюковской версии» в её классическом виде. Гипотеза прямого воровства текста «Тихого Дона» Шолоховым у Крюкова потребовала бы отменить последние 20 лет развития стилометрии и те эмпирические закономерности, которые независимо друг от друга нашли и многократно подтвердили десятки ученых из разных стран. 

Однако есть и такие «антишолоховские» гипотезы, которые стилометрически никак не опровергаются. Например, что Шолохов нашел некий дневник белого казака (того же Крюкова, Краснушкина или еще чей-то) и «на его основе» написал роман. Скорее всего, при таком способе создания текста стилометрически он будет вполне шолоховским. Также остаются сложной материей для стилометрии вопросы выявления соавторства. В стилометрии есть способы проследить переключение между двумя соавторами (условный случай Ильфа и Петрова), однако они куда менее устойчивы и к тому же уловят далеко не всякий формат соавторства. Например, если представить, что существовал некий таинственный автор-сказитель, который рассказывал Шолохову роман устно, а Шолохов записывал его, но не дословно, а «со слов» превращая устный нарратив в письменный текст, то такой случай стилометрия наверняка не отловит. 

Кроме того, можно себе представить и ситуацию, в которой существует некий загадочный автор X, соответствующий трем условиям:

  1. X написал всю раннюю короткую прозу Шолохова («Донские рассказы» и прочие рассказы и повести 1920-х годов);
  2. X написал большую часть «Тихого Дона» или весь роман;
  3. X при этом не входит в пул известных претендентов (то есть не Крюков, не Краснушкин, не Серафимович, не Платонов и т.д.). 

Такая ситуация вполне могла бы дать именно те результаты стилометрии, которые мы видим выше. А если этот гипотетический автор ничего больше не написал от своего имени, и только тайно поработал ghost-writer’ом для первой половины Шолоховского творчества, то выявить его стилометрически вообще невозможно. 

Разумеется, в академическом шолоховедении в целом, не ограниченном количественными методами атрибуции, есть серьезные контраргументы и против такой версии. Однако они, скорее, относятся к безбрежной области текстологии «Тихого Дона», с которой всё очень непросто и о которой я буду говорить в следующей части этой серии материалов.   

Автор этого текста благодарит Бориса Орехова за консультации, но оставляет все ошибки, в т.ч. в описании работы [Великанова, Орехов, 2019], на собственной совести. Также автор очень признателен Руслану Родионову и Евгении Колпащиковой за помощь с доступом к тексту [Марусенко и др., 2001]. Отдельную благодарность автор выражает Кириллу Маслинскому и всей команде Репозитория открытых данных по русской литературе и фольклору, благодаря усилиям которых филологические исследования становятся воспроизводимыми.

Источники:

  1. Великанова Н. П., Орехов Б. В. Цифровая текстология: атрибуция текста на примере романа М. А. Шолохова «Тихий Дон» // Мир Шолохова. 2019. № 1 (11). URL: http://nevmenandr.net/personalia/QuietDon.pdf
  2. Хьетсо Г., Густавссон С., Бекман Б., Гил С. Кто написал «Тихий Дон»? (Проблема авторства «Тихого Дона») / Пер. А.В. Ващенко, Н.С. Ноздриной. М.: Книга, 1989. 186 с.
  3. Фоменко В. П., Фоменко Т. Г. Авторский инвариант русских литературных текстов [Электронный ресурс]. URL: https://chronologia.org/seven2_2/add3.html (дата обращения: 22.09.2025).
  4. Марусенко М. А., Бессонов Б. Л., Богданова Л. М., Аникин М. А., Мясоедова Н. Е. В поисках потерянного автора: Этюды атрибуции. СПб., 2001.
  5. Михеев М. Ю., Эрлих Л. И. Частота служебных слов как различительный признак идиостиля (в связи с гипотезой супругов Фоменко) // Компьютерная лингвистика и интеллектуальные технологии: по материалам Международной конференции «Диалог 2017». 2017. С. 1–14.
  6. Михеев М. Ю., Эрлих Л. И. Идиостилевой профиль и определение авторства текста по частотам служебных слов // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2018. № 2. С. 25–34.
  7. Орехов, Борис, 2020, «Стилеметрические данные «Тихого Дона» и современной ему прозы», https://doi.org/10.31860/openlit-2020.05-R001, Репозиторий открытых данных по русской литературе и фольклору, V1
  8. Маслинский К. А. Уточненная цифровая текстология: eще раз к вопросу об авторстве романа «Тихий Дон» // Русская Литература. 2022. № 1. С. 247–254.
  9. Iosifyan M., Vlasov I. And Quiet Flows the Don: the Sholokhov-Kryukov authorship debate // Digital Scholarship Humanities. 2020. Т. 35. № 2. С. 307–318.

Добавить комментарий