Загадка Юро Яношика
Во всем мире чешско-французский писатель Милан Кундера известен, прежде всего, своими романами. Самые известных из них — «Невыносимая легкость бытия», «Шутка», «Бессмертие», «Вальс на прощание». Также перу Кундеры принадлежат три пьесы: «Владелец ключей», «Промах» и «Жак и его господин».
Однако недавно появилась гипотеза, что Кундера является автором еще одной пьесы, «Юро Яношик», впервые поставленной в 1974 году. До недавнего времени ее автором считался студент Кундеры Карел Штайгервальд. Что же привлекло внимание исследователей? И может ли эта пьеса быть четвертой авторства Кундеры?
Милан Кундера как автор пьес
В начале 1960-х годов Кундера начал писать пьесы для Пражского национального драматического театра. Его драматургическим произведением была присуща критика тоталитаризма в целом и сталинизма в частности, из-за чего постановка второй из пьес — «Промаха» — оказалась возможной только в преддверии Пражской весны, в 1967 году.
После ввода советских войск в Чехословакию в августе 1968 года Кундера принимал активное участие в протестных демонстрациях, за что был отстранен от преподавательской деятельности, а его книги — изъяты из библиотек. Этим все не кончилось, и в 1970 году по обвинению в соучастии в революционных событиях Кундера был исключен из Коммунистической партии Чехословакии. Год спустя Кундера заканчивает очередную пьесу, «Жак и его господин», ставшую адаптацией романа «Жак-фаталист и его господин» Дени Дидро. Однако из-за соображений цензуры (после судебного решения 1970 года Кундере было запрещено публиковать свои произведения) авторство пьесы было приписано режиссеру Эвальду Шольму, который поставил ее на сцене. Настоящий автор же стал известен публике только некоторое время спустя.
Зная историю отношений писателя с театром, становится понятным, почему у исследователей Кундеры могло закрасться подозрение, что за менее известным именем на рукописи «Юро Яношика» может скрываться автор мировой величины. Сомнений стало еще больше, когда комментировать авторство пьесы отказалась и драматург Яна Книтлова, готовившая постановку в 1974 году.
Лежащая в основе пьесы словацкая легенда рассказывает историю о разбойнике Юрае Яношике, который, поселившись в лесу вместе со своей шайкой, нападал на путешественников, при этом воплощая амплуа «благородного разбойника»: богатых он грабил, а награбленное раздавал бедным и нуждающимся. Сама пьеса неоднозначна по идеологическому содержанию. С одной стороны, она пропагандирует социалистический строй, а с другой стороны, критикует вторжение в Чехословакию. Осуждение ввода советских танков передано через эмоции королевы, недовольной длительным квартированием армии у нее в замке под предлогом «защиты».
Материал и ход исследования
Поскольку чешские литературоведы давно выдвигали гипотезу, что «Юро Яношика» написал именно Кундера — по совокупности художественных приемов, содержанию и беря во внимание туманность авторства, — исследователи Ленка Юнгманнова и Петр Плехач из Института чешской литературы при Чешской Академии наук постарались окончательно разрешить этот вопрос с помощью стилометрического анализа.
Корпус, с которым они работали, состоял из 9 текстов: 3 пьес Кундеры, 5 пьес Штайгервальда (где была представлена в том числе одна радиопьеса) и, конечно же, пьесы «под вопросом». Чтобы увеличить размер данных, каждый текст был поделен на отрезки в 2000 слов.
Рис 1. Описание датасета; буквой R отмечена радиопьеса.
В качестве параметров датасетов были использованы частоты лемм, слов, символьных триграмм и совмещенные частоты лемм с символьными триграммами. Относительные частоты были переведены в z-scores, после чего из отсортированного списка брались первые 500, 750, 1000 и 1500 частотных значений по каждому из 4 параметров. Это позволило создать целых 16 новых датасетов.
Для атрибуции исследователи применили контролируемое машинное обучение, точнее метод опорных векторов, Support Vector Machine (SVM). Для оценки SVM-модели была использована кросс-валидация, при которой часть выборки считалась тестовой, а часть — обучающей. Поскольку SVM чувствительна к несбалансированным данным, при каждом «заходе» количество отрывков из пьес Штайгервальда было снижено до количества отрывков из Кундеры. Эта процедура была повторена 1000 раз для всех 16 датасетов.
Результаты… и новые вопросы
Рис 2. Кросс-валидация метода опорных векторов. Оценка точности для разных пьес и датасетов.
На рисунке 2 видно, что общая точность достаточно неплохая: в 94% случаев модель правильно определяла автора. При этом «Юро Яношик» был во всех 16 тысячах случаев атрибутирован Кундере. Именно расчет расстояния (параметр Delta) показывает, что «Юро Яношик» больше соответствует стилистике пьес Кундеры, чем Штайгервальда.
Юнгманнова и Плехач отмечают, что наибольший процент ошибок приходится на радиопьесу Штайгервальда «Слабое полуденное солнце», и предлагают три гипотезы о причинах такого результата.
Во-первых, исследователи отмечают жанровое различие как таковое: «Слабое полуденное солнце» — единственная пьеса, не предназначенная для театра, что и могло сказаться на результатах. Во-вторых, транскрипт, с которым работали ученые, был сделан не самим Штайгервальдом, что могло привести к «растушевке» авторского стиля и слога. Наконец, радиопьеса относится к раннему периоду творчества Штайгервальда (бывшего в то время студентом Кундеры), и потому не исключено, что неверная атрибуция стала следствием влияния Кундеры на своего ученика.
Заключение
Собранные данные позволили исследователям сделать вывод, что с большой долей вероятности автором пьесы «Юро Яношик» является Милан Кундера. Публикация произведения под чужим именем могла быть вызвана, прежде всего, соображениями цензуры после того, как Кундере было запрещено печатать собственные произведения.
Ознакомиться с данными и ходом исследования можно на ГитХабе исследователей: https://github.com/versotym/kundera.