Настоятель Свято-Троицкого Данилова мужского монастыря Переславля-Залесского игумен Пантелеимон (Королев) использует компьютерные методы анализа текста со времен защиты диплома в духовной семинарии. Сегодня в его исследовательский арсенал входят даже дистрибутивная семантика и word2vec. В интервью изданию «Системный Блокъ» отец Пантелеимон рассказал об опыте исследования цифровыми методами ткани богослужебных текстов, сокрытых в них антиномиях и здоровом азарте в поисках истины.
― Расскажите немного о себе и о том, как компьютерная лингвистика и Церковь оказались связаны между собой в вашей жизни?
― Я сейчас настоятель Данилова монастыря в Переславле. В этой должности совсем недавно и пытаюсь в нее вжиться, понять, как совместить все то, что мне бесконечно интересно.
А так я сам москвич от москвичей, родился в обычной светской семье. Сначала учился в матклассе гимназии. В школьные же годы начал программировать ― у меня отец программист, и компьютер появился еще в младших классах. Ближе к выпуску ходил на лингвистический кружок, участвовал в лингвистических олимпиадах.
Потом закончил мехмат МГУ (кафедру дискретной математики), где занимался булевыми функциями и немножко криптографией. Воцерковился уже во время обучения в университете. Студенчество ― нормальное время для поиска смыслов. В этот момент как раз-таки случился такой классический неофитский запой христианской литературой, проснулся интерес к филологии.
Сразу после университета поступил в Московскую духовную семинарию, затем в Московскую духовную академию. Про компьютерную лингвистику я не думал вплоть до момента выбора дипломной работы, когда в качестве объекта исследования выбрал историю текста славянского Апостола.
Справка: что такое Апостол?
Апостол ― богослужебная книга, содержащая часть Нового Завета: Деяния и Послания св. апостолов.
Можно было по-разному к этому вопросу подойти, я вот решил, что было бы странно не написать базу данных, коль уж соответствующие навыки имеются. В результате диплом в семинарии, а потом и кандидатская в академии у меня были посвящены текстологии славянской Библии ― тому, как редактировали служебный Апостол после Ивана Федорова. И там обнаружились любопытнейшие вещи.
― Все это с применением компьютерных технологий?
― Да, я просто взял несколько отрывков из Апостола, которые цитируются в богослужебных книгах, и вбил в базу все отличия, которые нашел в разных изданиях. В итоге удалось увидеть, как группируются некоторые издания, как выделяется что-то уникальное и неожиданное. Проявились, например, стремления почаевских униатов к архаизации. Стали видны и регулярные правки, касающиеся орфографических норм Москвы и Петербурга.
Справка: что за почаевские униаты?
С 1713 по 1831 год Свято-Успенская Почаевская лавра на Западной Украине находилась под властью униатов, при этом книгопечатание в ней не прекращалось.
Как увидеть в булыжнике бриллиант
― Честно говоря, мне все равно кажется, что это ― какая-то уникальная история, когда священнослужитель изучает богослужебные тексты с помощью цифровых методов. Хотя… основателем Digital Humanities на Западе все считают Роберто Буcу, который вообще-то был иезуит. Однажды он пришел к руководству IBM и инициировал создание корпуса Фомы Аквинского. В результате ― сегодня главная премия в мире DH называется Roberto Busa Prize.
― Ну, на самом деле эти все вещи восходят к более ранним прецедентам. Уже Ориген занимался текстологией Священного писания. В своих «Гекзаплах» он собрал шесть различных переводов Библии — вот вами и параллельный корпус. Но наверняка и он тоже не был первопроходцем. Любая попытка редактирования текста или перевода Священного Писания заставляет человека обратиться к уже имеющимся рукописям, ко всем доступным изданиям на всех понятных ему языках. Потому что именно из такой совокупности текстов мы можем хоть как-то приблизиться к тому, чтобы уяснить, все ли мы правильно понимаем. Да и конкордансы возникли достаточно давно.
Человеку дан разум, и он пытается все свои силы использовать на благо той цели, к которой стремится. Если ты чем-то увлечен ― занимайся этим со здоровым азартом, найди то, что тебя будет вдохновлять и интересовать, попробуй подходящий инструментарий.
В какой-то момент я задумал: «Отлично, будем сейчас сравнивать источники, рассматривать детали». Дальше, когда погрузился в один из текстов, прочитал его много-много раз в разных вариантах, на некоторое время ощутил, что стал не вполне адекватно его воспринимать в рамках богослужения. Слыша его, начинал думать об исследовании, а не о том, что это в первую очередь молитва. Очень важно эти моменты разводить и снова «собирать». Когда мы анализируем какой-то текст, мы его расчленяем, детально рассматриваем, и на какое-то время он становится мучимым объектом исследования, а после возвращаемся к этому источнику снова, встречаясь с ним во время богослужения, как в первый раз — и эта встреча происходит на более глубоком уровне.
Анализ богослужебных текстов вызывает иногда восторг и эйфорию. То, что тебе представлялось мрачным, унылым и непонятным, ни одной точкой с тобой не соприкасающимся, вдруг оказывается про твою жизнь. Ты смотрел на текст, как на булыжник, а потом немножечко его протер, и он заиграл перед тобой, как бриллиант.
Радость (не)узнавания
― А «протер» — это значит взглянул на богослужебные тексты с какой-то другой стороны?
— Можно вспомнить эпизод из «Имени Розы» Умберто Эко, когда Вильгельм, войдя в библиотеку, просматривает ее содержимое. Какие-то книжки он встречал с радостью, как своих старых друзей, какие-то с удивлением, потому что он про них слышал и желал познакомиться. А какие-то ― с еще большим восторгом, потому что про них не слышал ничего. И вот такой открытый взгляд и такое отношение должны быть к богослужению. Одни богослужебные тексты тебя радуют потому, что перекликаются со знакомыми текстами из другой службы, другие, наоборот, удивляют тем, что ни с чем не перекликаются и звучат как абсолютно новые.
Мне сейчас очень интересно, каким образом устроена эта ткань богослужения. Другое слово, кроме как «ткань», мне трудно подобрать — ведь богослужебные тексты причудливо переплетаются друг с дружкой.
― Расскажите побольше о своих исследованиях. С чего Вы начинали?
— Сначала я просто смотрел статистику по словоупотреблению, в первую очередь обратил внимание на частотный словарь: отмечал и самые частые, и самые редкие слова. Слова, единожды употребленные в исследованном корпусе, так называемые гапаксы (ἅπαξ λεγόμενον — то есть «единожды сказанное»), представляют особый интерес. Некоторые из них встречаются один раз вообще во всех известных текстах, и как их переводить никто не знает. Чаще всего это касается названий растений, птиц и рыб.
Справка: о каком корпусе текстов идет речь?
Для исследования были взяты тексты книг, содержащих богослужебные тексты: богослужебное Евангелие, богослужебный Апостол, Псалтирь следованная, Октоих, Ирмологий, Минея общая, Минея месячная, Триодь Постная, Триодь Цветная, Требник, Часослов, Служебник, Молитвослов. Электронные версии текстов книг были взяты с сайта orthlib.ru, созданном трудами священника Владимира Шина и М. Ю. Шин. Принципы выбора конкретных изданий для оцифровки нигде явно не прописаны, но преимущественно это московские издания конца XIX — начала XX века. С сайта orthlib.ru также были взяты следующие тексты для включения в дополнительный корпус текстов: Библия, Типикон, Акафистник, «Алфавит духовный», «Добротолюбие», Минея праздничная, Пролог, Правила святых апостол, Канонник, разные последования. Объем основного корпуса составил 2.6 млн словоупотреблений, вместе с дополнительным корпусом — 4.7 млн словоупотреблений» ― по [Иеромонах Пантелеимон Некоторые статистические характеристики корпуса церковнославянских богослужебных текстов, 2018].
В то же время сегодня мы зачастую имеем дело с текстами, оцифрованными и распознанными иногда не очень аккуратно и точно, поэтому некоторые современные гапаксы ― просто результат орфографических ошибок. С одной стороны, хочется их «почистить», с другой, знаком опыт взаимодействия с неаккуратно «почищенными» источниками. Например, постарались, отсканировали и распознали Елизаветинскую Библию, а потом взяли и автозаменой привели к собственным представлениям об орфографии. Это серьезная проблема, мы оказываемся некоторой пленкой отделены от изначального текста. Иногда старались графически подчеркнуть различия омонимов, а иногда на это не обращали внимание. Могли написать «тма», а могли — «тьма». Читались эти слова, скорее всего, одинаково, но интересно знать, была ли связь между написанием и различными значениями: «мрак» и «десять тысяч». Если мы невнимательно занимаемся нормализацией орфографии, такие вещи достаточно легко «убить». С другой стороны, хочется избавиться и от ошибок распознавания, потратив на это не вселенную времени.
Возвращусь к проблеме исследования частотности. Было интересно посмотреть, в каких текстах большая доля гапаксов. Оказалось, есть службы, написанные действительно сложным языком, а есть такие, в которых просто много неологизмов. Например, есть «Последование перед хирургическим вмешательством».
Справка: что такое последование?
Чинопоследование, последование ― в православной Церкви закрепленное церковными правилами или традиционно сложившееся последовательное сочетание молитв, песнопений и действий, совокупность которых составляет определенное богослужение. (Википедия)
Понятно, что в церковнославянском языке синодального времени слова «хирургический» не было. А там все последование написано в таком духе, оно к нам пришло из сербского Требника. Частотный анализ его «выбросил» наверх. По смутным ощущениям моих друзей, одной из наиболее сложных для понимания богослужебных книг является Постная Триодь. У этих ощущений есть математическое основание: в книге встречается заметно больше гапаксов на тысячу слов, чем в других. Сложность хорошо перекликается с тем, что тексты из этой книги звучат в период Великого поста, времени более интенсивной и глубокой духовной жизни христианина.
В качестве примера приведу Великий покаянный канон преподобного Андрея Критского, который читается на первой неделе Великого поста. Он изобилует отсылками к библейским сюжетам, и без их понимания в тексте мы видим какую-то тарабарщину. Если же разберемся, то перед нами окажется красивейший и интереснейший текст. Тебе упомянули имя Адама ― всплывают какие-то представления о жизни в раю, упомянули о Каине и Авеле ― вспоминается история с убийством одного из братьев. Если тебе напомнили о Давиде, Сауле, то вспоминаются их сложные взаимоотношения. Получается, что за счет этих упоминаний и прикосновения к ассоциативным связям все оживает. Ветхозаветные тексты во время Великого поста активно «подтягиваются», читаются большие паремии из Книги Бытия.
Богослужебные тексты построены на сочетаниях несочетаемого
― То есть здесь уже объектом внимания становятся переклички между текстами?
― Да, и в связи с этим есть другая тема для цифрового исследования.
Если взять Библию, в ней можно увидеть на полях меленьким-меленьким шрифтом отсылки к параллельным местам, то есть к другим стихам Библии, в которых встречается прямая цитата или близкая мысль. Было бы очень интересно понять, какая доля этих отсылок на параллельные стихи может быть выявлена поиском нечетких дубликатов, а какая может быть прописана только человеком с богословским образованием.
В какой-то момент я вдохновился RusVectores и попробовал искать семантические ассоциаты в богослужебных текстах, но недооценил сложность задачи. Я построил семантические ассоциаты для нескольких слов и предложил участникам семинара в ВШЭ, не особо всматриваясь: «Разберите, где синонимы, где антонимы, где гиперонимы, где гипонимы». Вроде все несложно, на первый взгляд. Но студенты впали в ступор: «Вот здесь понятно, вот здесь понятно. А вот это как классифицировать?!»
В качестве примеров можно привести пары «пост» и «бдение», «безумие» и «гордость», «блаженство» и «наслаждение», «веселие» и «просвещение» ― синонимы ли они? У «плоти» тоже были очень сложные ассоциаты. С одной стороны, в христианстве распространено отношение к плоти, как к той двери, через которую приходит искушение. Но с другой стороны ― это тот инструмент, благодаря которому мы можем возрастать, который тоже создан, чтобы наследовать Царство Небесное. Вот такое отношение к плоти и выдавало соответствующие семантические ассоциаты: на белое или черное словарь не поделишь. И это закономерно, потому что и христианство весьма антиномично, и богослужебные тексты на антиномиях построены, на сочетаниях несочетаемого.
Святитель Григорий Богослов совершенно неслучайно писал богословские поэмы. Те тайны, к которым он опытным путем прикасался, он считал совершенно невозможным и неправильным изложить прозаическими схоластическими выкладками. Это как в любви признаваться такими словами: «Твое присутствие в радиусе двух метров вызывает во мне выработку эндорфина». Избави Бог от такого признания в любви.
В богослужебных текстах есть своеобразные орнаменты. Типичные грамматические структуры, характерные противопоставления, образы, кочующие из одного песнопения в другое, ― они оказываются теми самыми ниточками, связывающими все друг с другом. И если появляется новый текст, то он должен вписываться в традицию. В противном случае велика вероятность, что он будет отвержен, окажется где-то на периферии, как масло с водой не соединяются.
― А разве сегодня внутри Церкви рождаются новые тексты?
― Конечно. В среднем раз в два дня на свете возникает новый акафист, ведется большая переводческая работа, составляются песнопения новомученикам XX века и древним святым. Церковные гимны и догматы ― не каменные плиты, под которыми погребена истина. Для каждой эпохи Церковь ищет свой язык, чтобы эту истину выразить.
Эволюцию церковных текстов можно изучать, в том числе с применением цифровых методов. Есть алгоритмы, которые помогают выявлять сходства в текстах, над их улучшением активно работают в коммерческих проектах. Например, в задаче поиска плагиата. Но по отношению к богослужебным текстам, как и в случае с фольклором, слово «плагиат» неуместно. В фольклоре не плагиат, а бытование сюжетов. В жизни богослужебных текстов происходят похожие процессы. В рамках традиции тексты рождаются, скрещиваются, умирают — они не даны нам в неизменном «законсервированном» виде.
Даже к Священному Писанию мы не относимся как к чему-то абсолютно застывшему. Мы видим текстологические расхождения, встречаем разные переводы и авторитетные толкования, и это — приглашение к размышлению над текстом. Даже сам евангельский текст нельзя понимать лишь буквально, нужно отступать на шаг. Если бы по Евангелию жили бездумные роботы, они были бы одноглазые, однорукие и одноногие. Они выполнили бы инструкцию: «Если глаз твой соблазняет тебя, выдерни его и брось от себя; рука или нога соблазняют тебя ― отсеки и брось». Евангелие нас заставляет к себе относиться не по-математически. Да, мы используем математические методы. Но и сама математика дошла до теоремы Гёделя о неполноте. Если перевести ее на язык поэзии, то можно сказать: сколь бы прекрасна ни была ваша гимнография, всегда найдется что-то еще невыраженное, прекрасное и истинное. Так что литургическое творчество будет в Церкви всегда.
Интервью: Даниил Скоринкин, Герман Пальчиков
Иллюстратор: Яна Пенечко