Борис Валерьевич Орехов – кандидат филологических наук, доцент школы лингвистики факультета гуманитарных наук НИУ ВШЭ. С помощью компьютерных методов Борис Орехов решает разнообразные филологические задачи. Например, исследует устройство башкирского стиха или сопоставляет русские переводы «Илиады». «Системный Блокъ» поговорил с Борисом Ореховым о компьютеризации филологии, его исследовательском пути и о стихах, сгенерированных с помощью нейросетей.
Путь филолога в программирование
Программировать я научился после окончания филологического факультета. Мне, как и многим гуманитариям, тогда казалось, что где-то в технических и компьютерных областях уже существуют люди, которые уже практически изобрели искусственный интеллект. Что этот искусственный интеллект может прочесть текст и извлечь из него ту информацию, которую я, филолог, не извлек. И там уже все придумали, нужно только заглянуть туда и использовать это в своих целях.
Как все мы знаем, так не бывает. На самом деле ты заглядываешь в эти блестящие позолоченные шкатулки, и выясняется, что внутри совершенно примитивные вещи, не претендующие на то, чтобы быть всемогущим интеллектом.
Мне казалось, что где-то уже изобрели искусственный интеллект — и он может извлечь из текста информацию, которую филолог не извлек
Мой отец был технарем. Еще на заре цифровой эры, когда не были очевидны перспективы компьютерных способов преподавания, он внедрял их в вузе. Я застал «Электронику», которая там стояла в компьютерном классе. Потом «Электроника» пропала, и вместо нее появились красивые белые системные блоки с «пентиумами» внутри. И эта эволюция, несмотря на отсутствие компьютера дома, происходила на моих глазах и не очень меня пугала.
Есть же такой психологический барьер для гуманитария или представителя старшего поколения, когда просто тяжело сесть за компьютер и начать с ним взаимодействовать. У меня его не было: компьютер с детства присутствовал в моей жизни. Это как в романе «Туманность Андромеды» Ефремова: там командир звездолета родился уже в космосе, и поэтому для него космический корабль был родным домом.
И я, может быть, раньше, чем все остальные, наблюдал, как компьютеры завоевывают себе жизненное пространство: отец делал какие-то электронные журналы успеваемости, например. Это было неслыханно в 90-х. Сейчас-то понятно: какой дурак будет в аналоговый журнал записывать оценки? А тогда это было совершенно новое.
Мне хотелось, чтобы компьютеры все объяснили, как устроен текст. И меня не во всем устраивали традиционные гуманитарные исследования. Была надежда, что компьютер может больше. Со временем выяснилось, что это не совсем так, но кое-что полезное от машины все-таки получить можно.
Что дает филологу программирование
Давно известно, что если ты знаешь много языков, то у тебя есть дополнительные возможности в интеллектуальном развитии. Оказывается, что значение какого-то смыслового блока можно выразить по-разному, не только так, как принято в родном языке человека.
Языков программирования это тоже касается. После большой дистанции гуманитарного образования филолог вдруг сталкивается с необходимостью выражать идею на алгоритмическом языке. Это может быть сложно, но это как раз хорошо. Получается своеобразный интеллектуальный фитнес. No pain no gain.
У знакомства с программированием есть некоторые плюшки в виде умения формализовывать и облегчения рутинных задач при работе с текстом. Но практическое приложение программирования даже вторично. А первично то, что ты получаешь дополнительное измерение мышления.
Изучить язык программирования — как открыть дополнительное измерение мышления
Что нужно, чтобы быть филологом-программистом?
Мне кажется, что навыки – не решающая история. Главное — мировоззренческий компонент. Если программист собирается создавать какой-то проект, который был бы интересен филологам, и при этом он не имеет возможности смотреть на это гуманитарными глазами, то у него ничего не получится.
Это касается не только программистов и гуманитариев. Скажем, есть «Евгений Онегин» как объект для исследований. Поскольку он известен всем, про него пишут разные люди, в том числе не специалисты по Пушкину. Например, был замечательный филолог-востоковед Игорь Михайлович Дьяконов, блестящий специалист по древневосточным языкам. Он вместе со студентами переводил Пушкина на аккадский, и это непросто, так как значения у слов другие, и он знал эту разницу. Как-то Дьяконов решил написать про «Евгения Онегина». Как вы думаете, какова была реакция сообщества тех русистов, которые активно изучали «Евгения Онегина»? Пушкинисты смотрели на это свысока.
Даже внутри гуманитарной науки есть «поднауки», скажем, «ахматоведение» или «древнерусская литература». Такие «поднауки» очень редко пересекаются. Поэтому в сообществе ахматоведов сразу не примут того, кто раньше писал про древнерусскую литературу – он мыслит на другом гуманитарном языке. С программистами, естественно, еще тяжелее.
Если программист делает проект для филологов, но не смотрит на него гуманитарными глазами, то ничего не получится
Оказывается, что понимать друг друга очень сложно. Отчасти из-за того, что не все осознают «горизонты» друг друга. Филолог, который ставит перед программистом задачу, не понимает всех возможных развилок решения.
О хороших исследовательских вопросах для Digital Humanities
Сейчас меня, главным образом, занимает нахождение таких углов зрения на гуманитарные предметы (литература, кино, театр, изобразительное искусство), которые позволяли бы ставить хорошие исследовательские вопросы и использовать цифровые методы для их решения. Хороший исследовательский вопрос трудно формализуем. Любой опытный ученый может сказать, какой исследовательский вопрос хороший, а какой – не стоит потраченных усилий, но научить этому очень сложно. Нельзя написать учебник про то, какие исследовательские вопросы в гуманитарных науках будут хорошими, а какие – нет.
Как стилометрия помогла оценить стилизацию перевода «Илиады»
В 2020 году вышла моя статья про перевод «Илиады», выполненный Алексеем Игоревичем Любжиным. В исследовании используется стилометрический метод Delta, который позволяет установить авторство текста. Существует точка зрения, что из Дельты мы ничего, кроме второстепенного для литературоведения вопроса об авторстве, не можем получить. Мне казалось важным показать, что это не так.
В XVIII веке был начат перевод «Илиады» на русский язык. Сделал это Ермил Костров — нетривиальный поэт своего времени. Но он перевел «Илиаду» не до конца, а остановился на восьмой песне. Этот текст устроен не так, как привычный нам перевод. Обычно тексты Гомера переводятся на русский язык с помощью так называемого «русского гекзаметра», то есть шестииткного дольника:
Гнев, богиня, воспой Ахиллеса, Пелеева сына,
Грозный, который ахеянам тысячи бедствий соделал…
Но в XVIII веке использовать гекзаметр было не принято. Поэтому Костров, как и многие поэты, использовал «александрийский стих», то есть шестистопный ямб со сдвоенной рифмой. Начало «Илиады» в этом размере у Кострова выглядит так:
Воспой Ахиллов гнев, божественная Муза!
Источник Грекам бед, разрыв меж них союза,
В наше время филолог-классик Алексей Игоревич Любжин доделал перевод Кострова теми же самыми александрийскими стихами. Мне хотелось понять, насколько Любжину удалось имитировать стиль Кострова.
Тут важно отметить, что Любжин не говорил, что он пытался имитировать Кострова. Он просто докончил перевод. Но кажется, что для науки и для вопросов рецепции античного наследия это важно: такая стилеметрическая история.
В результате моего исследования выяснилось, что Любжин все-таки очень оригинален и его язык не похож на тот, что использовался в XVIII веке. Не знаю, знаком ли он с этим исследованием, но мне удалось опубликовать его в журнале по классической филологии «Аристей», то есть вторгнуться в самую самую цитадель традиционалистской филологический области, в которой цифровые методы не очень жалуют.
Как затягивание исследований портит имидж Digital Humanities
В исследованиях мне важна возможность завершить проект в разумные сроки. В гуманитарной науке принято найти какой-то вопрос и всю жизнь его исследовать. Но мне важно выделить то, что имеет очевидное начало и очевидный конец, где можно было бы встать, остановиться и сказать: «Вот теперь все понятно».
На мой взгляд, растянутые во времени работы плохо влияют на имидж цифровых гуманитарных наук. Вот вы годами чем-то занимаетесь, рассказываете людям одно и то же, но где результат?
А если есть какая-то компактная история, которую можно быстро, в рамках такой «маленькой победоносной войны» осуществить, то, мне кажется, что это смотрится выигрышно.
вы годами чем-то занимаетесь, рассказываете людям одно и то же, но где результат?
Но соединить в одном исследовании хороший вопрос и разумные сроки очень трудно. Берешь много-много породы и всю ее промываешь, пока не увидишь маленький кусочек золота.
Ценность формализации для гуманитариев
Формализация – это строгость мышления. Это то, чему обычно не учат никого из гуманитариев, кроме разве что философов. У них есть логика, и она занимает большое место в их картине мира и в учебной программе. В остальных гуманитарных областях логика если и есть, то как факультативный предмет, который никак не повлияет на дальнейшую судьбу студента.
Формализация – это строгость мышления
Программирование дает понимание, как мыслить строго, последовательно. Может быть, в какой-то момент твоей исследовательской практики и жизни это пригодится.
Можно ли посчитать сюжет и смысл произведения
Сюжет «посчитать» можно, а смысл – нельзя, потому что никто не знает, что это такое. Чтобы посчитать сюжет, нужно, во-первых, договориться, что это значит. Как правило, им являются какие-то значимые события в тексте. Мы можем обучить компьютер извлекать из текста эти значимые события.
В результате у нас получится некоторая модель. Насколько она точна? В каждом отдельном случае мы можем это измерить. Например: есть 100 событий в тексте, которые должны войти в сюжет, а компьютер увидел только 80 из них. Или наоборот: те события, которые не должны быть событиями с нашей точки зрения, компьютер вдруг обнаружил и включил в сюжет.
Но это рассуждения человека, который уже привык к формальному взгляду на свой предмет. Наверное, человек, который к этому не привык, будет думать по-другому: о том, насколько модель отражает глубинные процессы, которыми интересуется гуманитарная наука. Такая точность неизмерима, потому что она принципиально континуальна, а не дискретна.
Какие схемы формализации сюжета придумала наука
Люди уже полтора века примерно представляют, как описывать сюжет. Есть книги про то, как устроен сюжет и что он собой представляет. Но это все очень трудно формализуемо. Конечно, в тот момент, когда мы начинаем говорить об этом в компьютерных терминах, никакого консенсуса нет, хотя есть некоторый вектор размышлений, где его можно искать.
Понятно, что он лежит где-то рядом с той областью, которая в компьютерной лингвистике называется извлечением фактов из текста. Скажем, из какого-то пресс-релиза компьютеру нужно вычленить, что в нем описывается. На уровне деловых документов это решаемая задача, но когда мы обращаемся к художественному тексту, то конечно, она становится решаемой в гораздо меньшей степени.
Сюжетно важным событием может быть то, что госпожа Бовари подошла к камину. В чем тут идея? Стало холодно. Но слова «холодно» в тексте нет. А что значит «стало холодно»? Это отражение эмоционального состояния героя, которое может быть важным для сюжета. Разнообразие такого рода сюжетных представлений стремится к бесконечности. Сможет ли компьютер это увидеть?
Зачем нужны корпуса разных языков?
Корпус – это интерфейс к языку. И, конечно, гораздо лучше, когда он есть. Так же как, например, у некоторых магазинов есть сайт, а у некоторых – нет. На сайте, как минимум, можно посмотреть, до какого часа магазин работает. В корпусе тоже можно посмотреть разные полезные вещи. И наверное, нам хотелось бы, чтобы у каждого магазина был сайт, потому что заранее не знаешь, какой магазин тебе потребуется, и сможешь ли ты туда попасть в 11 часов вечера.
Мне кажется важным делать корпуса, потому что корпуса должны быть у всех языков, и в меру своих скромных возможностей я пытаюсь это дело продвинуть.
Когда я закончил университет, меня волновал вопрос: ради чего это все. Гуманитарная наука же не может дать человеку ничего практического. И, что же, она бесполезна?
Когда я закончил университет, меня волновал вопрос: ради чего это все
Потом я понял, что гуманитарная наука не бесполезна, потому что она удовлетворяет важную человеческую потребность в знаниях. С каких-то самых древних времен, еще до появления письменности, в человеке проявилась эта потребность. Не знаю, откуда она взялась – может быть, эволюционно это объяснимо. Желание узнать о мире окружающем и внутреннем как можно больше – эта потребность, видимо, природная.
Гуманитарная наука о том же: есть сложные объекты, которые непонятно как устроены, непонятно как функционируют. Искусство, литература – что это такое? Почему оно живет? Что оно собой представляет? Гуманитарная наука пытается ответить на этот вопрос, и ответ на этот вопрос, видимо, важен для человека. А корпуса помогают понять, как устроен язык. Думаю, без корпусов это делать сложнее.
Могут ли корпуса стать капсулой времени для сохранения языка
В некотором смысле большие корпуса могут быть капсулой времени. Пару лет назад я опубликовал на хабре статью про языки России. Многие люди писали, что языки сохранять не нужно, а нужно, если мне так дороги эти языки, просто создать грамматику и словарь. Пусть они лежат на полке, и те, кому нужно, к ним обратятся.
Как всегда, сработало «лестничное остроумие»: уже после этого мне пришел в голову ответ, что полного описания языка в виде грамматики и словаря мы никогда не получим, потому что грамматика не способна учесть все нюансы, которые существуют в языке, например, сочетаемость слов. Есть синонимы, которые с точки зрения грамматики должны сочетаться со словами одинаково. Например, «мокрый» и «влажный» – это синонимы. Но можно сказать «мокрый снег», а «влажный снег» – не говорят. Такое знание о сочетаемости мы извлекаем из корпуса, а другие способы описания языка такого не дадут.
Полное описание языка, видимо, должно составлять библиотеку, которая окажется гораздо больше, чем даже собрание сочинений Ленина. Вместо этого мы можем использовать корпус. Но это не полноценная замена языку. «Капсула времени» – хорошая метафора. Однако важно понимать, что полным эквивалентом живому языку корпус не является.
Поиск в корпусе как альтернатива словарю
Это уже стало общепринятой практикой, другое дело, что пользовались при этом люди не Национальным корпусом русского языка, а, например, Яндексом. Он обращается к большому массиву текстов во всем интернете и позволяет искать там информацию.
Есть такая концепция, которая называется «веб как корпус», то есть, в принципе, текст размещенный в интернете – это уже, в некотором смысле, корпус. Как с ним взаимодействуют? Например, люди хотят посмотреть, как писать: «на Финском заливе» или «в Финском заливе»? Часто они просто ищут в Яндексе: «в Финском заливе», «на Финском заливе» и смотрят, какое количество вариантов на тот или иной запрос. Это абсолютно корпусный метод.
Считается, что раньше язык описывался двумя способами: через грамматику и словарь, а теперь он описывается тремя способами: через грамматику, словарь и корпус. То есть работает принцип дополнительности. Хотя, конечно, всякое может случиться в будущем: христианство сначала признали еще одной дополнительной религией, дескать, пусть будет и такое в Риме. А потом раз — и оно стало единственным возможным вероисповеданием.
Что можно будет узнать из гипотетического корпуса всей русской литературы
Большие тренды. Вероятно, мы сможем увидеть, как работает эволюция разных литературных параметров. Есть прекрасные слово «эмерджентность», оно как раз про корпус. Эмерджентность – это такое свойство системы, которое предполагает, что из нее можно извлечь что-то такое, что не подразумевают сами создатели. Когда люди строят корпуса, они не могут заранее заложить все исследовательские вопросы, которые появятся у других исследователей в момент использования корпуса.
Как получилось, что первые поэтические корпуса возникли для русского, башкирского, чешского и персидского
Получилось так из-за конфигурации научных школ и научных традиций. Есть такая научная область – количественное стиховедение, которое по методам очень близко к computational лингвистике. Количественное стиховедение было изобретено в России и многие десятилетия существовало только здесь. Свою историю оно ведет с 1910 года, с книги «Символизм» Андрея Белого. Потом появилось много других людей: Шенгели, Томашевский, Гаспаров, Колмогоров, и все они жили в России. Долгое время это была такая исключительная штука именно русской науки, которую Джеймс Бейли назвал русским методом.
Потом стиховеды обнаружили, что бывают корпуса и стали их делать. Так, первым делом появился русский корпус, потом – башкирский, просто по аналогии с русским. В это же время создавался чешский корпус, который был запущен несколькими месяцами позже.
Потом стиховеды обнаружили, что бывают корпуса и стали их делать
Почему вдруг чешский? Во-первых, чешская гуманитарная наука очень сильно связана с русской и всегда была связана. Русский филолог Роман Якобсон – один из основателей чешского лингвистического кружка. И в рамках Восточного блока общение между гуманитариями было налажено довольно неплохо.
Кроме того, чешская корпусная лингвистика – очень сильная, едва ли не самая сильная в тех странах, которые создали корпуса. Персидский же корпус сделан теми же самыми людьми, что и башкирский, например.
Что удалось узнать о башкирском стихе через корпус
Главная концептуальная идея, которая может развиваться и проверяться экспериментально, связана с «гипотезой паритивного счёта». Статистически, когда поэт-силлабист (поэт, который ориентируется не на ударения, а на длину строки в слогах) пишет стихи, то он чаще использует слова четной длины в слогах. То есть, он берет, как правило, двусложные слова и четырехсложные. Причем это не обязательно так за рамками поэзии. В прозе, например, получается как угодно. А в поэзии именно слова четной длины являются таким наиболее востребованным строительным материалом строки.
За пределами башкирского стиха, как мне кажется, удалось показать, что происходит вообще в такого рода традиции, в которой пишутся стихи с помощью силлабики.
Удалось показать, что вообще происходит в такой традиции
Мне хотелось пойти чуть дальше Гаспарова, который много сделал для исследования русского стиха. Мне кажется, что стиховедение, в том числе и у великого Михаила Леоновича Гаспарова, ограничивается довольно очевидными и не вполне современными статистическими методиками. Мне хотелось показать, как новые подходы в области анализа данных работают в стиховедении.
Для чего генерировать стихи с помощью нейросетей
Мне кажется, что самый обобщенный ответ на этот вопрос сформулировал в свое время Ролан Барт в эссе «Удовольствие от текста». Барт говорит, что если это приносит удовольствие, больше никаких оправданий не нужно. Если вы читаете текст, и он вам нравится, пусть даже это и постыдное удовольствие, вам не нужно другое оправдание чтению. Так вот, генерировать поэтические тексты с помощью нейросетей – это прикольно. Многих людей интересует, что из этого получается. И этого достаточно.
Кому интересна нейропоэзия
Мы можем видеть, как сильно тексты, сгенерированные в ходе экспериментов в середине XX века, отличаются от сегодняшних. Но компьютер все еще порождает что-то совершенно иное, отличное от текста, написанного живым автором. Соответственно, и читательский опыт сильно отличается.
Что касается писателей, мне кажется, что им это как раз менее интересно. Есть такие наивные представления, что компьютеры сгенерируют текст, который автору останется лишь немного отредактировать. Были даже опыты такого рода. Но очевидно, что это скорее исключение из правил, потому что писателю или поэту важно самовыражение через текст. Многие авторы болезненно реагируют на правки даже отдельных слов. Потому что творческий акт и его результат — это неотчуждаемая от их личности материя. А тут в мой творческий процесс, в «мое» общение с миром вмешивается эта железяка.
а тут в творческий процесс вмешивается железяка
Если мы говорим о поэзии, то сейчас она в принципе не так популярна, как, скажем, в 60-е годы ХХ века. Это такой монашеский орден, куда люди идут потому, что считают это нужным для себя. Среда поэтов — не какое-то хлебное место, где можно поживиться материальными благами. Да и славой, по существу, тоже. Почему поэзия вообще существует? Потому что есть какое-то количество авторов и какое-то количество их читателей. Иногда это одни и те же люди, множество, которое не включает в себя дополнительных элементов. В смысле, читателей не больше, чем авторов. Иногда так бывает.
Как в эту схему впишется компьютер? Никак. Он не является автором, у которого есть субъектность. Не чувствуя этого, читатель к нему тоже не потянется.
у компьютера нет «субъектности»
Есть исследование, подтверждающее эту гипотезу. В ходе эксперимента испытуемые оценивали картины, написанные людьми. Но про некоторые из них организаторы эксперимента сообщали будто бы те нарисованы компьютером, сгенерированы автоматически. И такие якобы «компьютерные», а на самом деле вполне человеческие картины никогда не вызывали интереса у испытуемых.
Иными словами, есть некоторый невидимый контракт между автором и читателем, в котором читатель говорит: «Я тебя читаю, ты мне интересен, потому что ты личность.» Компьютер не представляет собой личность.
Чему мировые Digital Humanities могут научиться у российских
Поэтический корпус, конечно. Потому что такого там нет, а у нас есть. Поскольку мы выяснили, что это наше ноу-хау, в некотором смысле, мы и дали это миру. Скажем, чехи были после нас и должны были учесть наш опыт. Исследователи из других стран также могут создать свои поэтические корпуса.
О планах на будущее
Я хочу написать два учебника: учебное пособие по Digital Humanities и учебник по древнегреческой литературе, которым я занимался с начала 2000-х годов. И две популярные книжки.
Мне иногда кажется, что популярное изложение сегодня порой оказывается проще, чем нужно. Не в смысле, что я хочу излагать что-то сложно, а в смысле, что мне хочется, чтобы популярная книжка все равно была по-своему глубокой. Такой баланс соблюсти непросто. Посмотрим, насколько это получится.