Читать нас в Telegram
Иллюстрация: Женя Родикова

Лев Толстой как неслучайный предлог для цифрового издания

В 2013-м мы с Борисом Ореховым, Михаилом Гронасом и Романом Лейбовым увлеклись Digital Humanities ― совершенно неизвестной, но какой-то очень интересной областью. Стали в неё погружаться и узнали, что существует особый формат ― Digital Edition (цифровое издание). Оказалось, можно делать настоящие академические цифровые издания. 

Академическое цифровое издание — это не просто красиво сверстать в интернете. Туда вкладывается большой интеллектуальный ресурс. Даже если сама задача инженерная, ты находишься в пространстве научных знаний. Твои решения определяются не коммерческой выгодой и даже не удобством пользователя, хотя это очень важно. Необходимо понять, как продемонстрировать аудитории знания, представленные в цифре. Как выйти за пределы бумажной традиции.

«Оказалось, можно делать настоящие академические цифровые издания»

Решили, что цифровое издание обязательно нужно попробовать сделать и начать следует с Толстого, потому что он написал очень много и очень много разного. И если мы перевыпустим в цифре всего Толстого, то тогда уже все поймем, как делать цифровое издание. В принципе, так и получилось: теперь я знаю всё о подготовке цифрового издания.

Одновременно Фёкла Толстая запустила «Весь Толстой в один клик» ― проект по распознаванию текстов (OCR) из 90-томника сочинений Толстого. Дело в том, что собрание лежало в интернете в виде ZIP-файла фотографий, а Фёкла очень давно хотела, чтобы оно было всем доступно и его можно было читать с читалки. Ей говорили: «Распознавать-то распознаем, но кто будет вычитывать ошибки ― это непонятно». И она придумала гениальный проект, ставший фантастически успешной историей цифрового DH-краудсорсинга. Три с лишним тысячи человек за две недели прочли 90 томов!

«Три с лишним тысячи человек за две недели прочли 90 томов Толстого» 

И мы пошли на презентацию проекта. Когда все всё послушали и похлопали и всем налили по стаканчику, мы подошли к Фёкле и сказали: «Это супер круто, нужно сразу делать следующий шаг ― нужно семантическое издание (мы тогда называли это семантическим изданием, сейчас я скорее не называю это так). Нужно не просто распознать эти странички, но и разметить машиночитаемыми тегами. Это поможет сделать замечательные базы данных, задавать умные вопросы к текстам. Оно заживёт какой-то новой цифровой жизнью». И Фёкла в нас поверила сразу же: «Да, давайте».

Интерфейс взаимодействия с цифровыми текстами

После того как волонтеры прочитали 90 томов Толстого и тома были выложены на Tolstoy.ru, у нас появились возможность читать их в любом формате — и в PDF, и с сайта, и скачивать на ридер. Но при этом не было сплошного поиска, каждый том был как бы отдельной книгой, т.е. искать, например, слово «война», как я делала в конце февраля 2022, чтобы найти, что Толстой писал про войну, мы не могли. Мы можем 90 раз кликнуть, открыть, нажать Ctrl+F, набрать слово «война» или форму «войн» и получить какую-то цитату. Но это огромное наследие, и если мы переводим его в цифру, то нам нужно создать принципиально другую навигацию по нему. Собрание сочинений ― пространство текстов, устроенное невероятно сложным образом, к нему есть только один традиционный бумажный интерфейс, который на самом деле не очень удобен в цифровом виде.

«традиционный бумажный интерфейс не очень удобен в цифровом виде» 

Сто раз было, когда мы сидим с Фёклой и разговариваем, вдруг надо посмотреть, как что-то сделано в книге. И что делает Фёкла? Поворачивается и берет бумажный том, открывает его: потому что это удобнее ― взять том и открыть, если надо что-то посмотреть, найти нужную страницу. Это проще, чем пойти на сайт, найти том, загрузить его, долго скроллить, это ты ждёшь, это дольше. То есть на самом деле тебе нужен другой интерфейс взаимодействия с текстами. В случае с Толстым это даже не просто тексты: там какие-то черновики, планы, всякие дневники и записные книжки, письма, множество вариантов, комментариев.

Keynote Бруно Латура и пересборка культурного объекта

Недавно я вспомнила, что где-то слышала: «Бумажные книги ― это как бы 2D, а цифровые ― 3D». Очень красивая мысль. Стала думать, откуда же она, и мне показалось, что я услышала её в лекции Бруно Латура, который выступал в 2014-м году на DH-конференции в Лозанне с keynote (пленарным докладом — СБъ).

Нашла её в YouTube ― он всё помнит ― и пересмотрела. Оказалось, что не Латур, а кто-то другой говорил про 2D-3D. Но я вдруг осознала, что тогда я совершенно не поняла его лекции. Теперь же она как будто вдруг что-то немного во мне сдвинула. В своём невероятно харизматичном монологе с некоторой такой французской провокативностью он говорит огромному залу, который собрался послушать про Digital Humanities, что в принципе-то DH ничего такого особенного, специального не делают. Все сценарии взаимодействия с книгой уже есть. Печатная книга ― это невероятно сложно устроенная вещь, просто DH делают что-то очень глубоко спрятанное очень доступным. И тот факт, что уже заложенные, но плохо доступные сценарии становятся видны, дальше все меняет. Противопоставление цифрового аналоговому пропадает.

«Противопоставление цифрового аналоговому пропадает» 

В каких-то лекциях из тех, что я читаю, у меня есть цитата из Елены Пьераццо. Она очень убедительно говорит, что продукт digital publishing’а (цифровой публикации) ― это новый, совсем отдельный объект. И это совсем не книга. Это то, что рождается во время взаимодействия пользователя с источниками (sources) при помощи инструментов (tools). И я очень долго жила именно с такой мыслью, что мы, работая с наследием Толстого, получим принципиально другой объект.

Но ближе к концу прошлого года появилось ощущение, что цифровое издание ― то же, что и бумажное, просто ты какие-то вещи поднимаешь на поверхность. Потом я послушала Латура и убедилась в этой мысли, поменяла свою точку зрения: теперь верю в то, что сказал Латур.

Выкинуть нельзя оставить: как делать интерфейс книги в цифре

На первом этапе работы с 90-томником Толстого была цель создать из распознанных страничек документы с машиночитаемой разметкой. Но какой должна была быть разметка? Что там должно было быть размечено? И что стоило принимать за документ? На эти вопросы не было ответов. У нас была цель, но детали были совершенно туманны. В тот момент мы получили маленький грант РФФИ и сделали базовые вещи: XML-разметку, выучили слово «TEI» и начали учиться в нём работать.

Хотелось сделать инструмент для общения читателя с Толстым, и это был вызов. Мы подумали и поняли: это не может быть база данных, составленная по томам. И вообще, зачем нам нужны эти тома? Нам нужно достать все тексты и дальше устроить умный поиск по этим текстам, чтобы можно было какие-то сложные запросы задавать. И эта задача про преобразование интерфейса в виде томов в какой-то иной интерфейс оказалась гигантской. Мне кажется, что процентов 80% усилий было потрачено на поиск решения.

Я помню бесконечный спор: «Окей, у нас нет томов, а как же “Война и мир”? Она-то в разных томах!?» Или: «Хорошо, у нас вообще нет томов. Но как тогда людям ссылаться? Ведь хоть какие-то связи с 90-томником нужны!» А также: что делать с комментариями?

Кстати, комментарии мы тогда решили выкинуть, оставив только Толстого. И уже сейчас мы их добавили и связали с произведениями. И это тоже важная история, потому что чем больше мы работали с 90-томником, тем больше мы понимали, какую огромную работу проделали те люди, которые его готовили. Преступно было бы ее отбрасывать и говорить: «Вот мы здесь просто текстики возьмем». Наоборот, естественное правильное поведение состоит в том, чтобы все интегрировать.

Люди, которые создали 90-томник, прошли через тяжелые испытания прежде, чем он был издан. Есть прекрасная книга, в которой описано, как это было. Чудесный момент в ней есть про то, как Ленин сказал, что обязательно нужна комиссия, которая проследит, чтобы было всё-всё издано, а то ведь потомки что-нибудь обязательно не разрешат печатать. Потому что советский человек имеет право прочесть все, что написано великим русским писателем. А потом постепенно, особенно когда дошло дело до дневников и черновиков, оказалось, что Толстой писал, например, про социалистов или про революционеров такое, что советскому человеку читать ни в коем случае не нужно. И уже в послевоенное время возникла патовая ситуация: и не печатать нельзя, и печатать нельзя. Группу редакторов практически распустили, годами зарплату не платили, притесняли. Всё случилось только благодаря их преданности идее: Толстой должен быть доступен. И это помогло преодолеть все препятствия. В том числе были напечатаны такие строки, которые в принципе не должны были пройти советскую цензуру.

«были напечатаны строки, которые не должны были пройти советскую цензуру» 

И вот в этом видится параллелизм: хочется, чтобы тексты были доступны. Сейчас они гораздо доступнее, чем когда лежат в десятках томов. И пусть все читают текст «Одумайтесь». Он, конечно, меня совершенно завораживает. 

Интерес к штучкам

Сейчас мы, скорее, просто добавляем в уже готовый продукт какие-то штучки, которые делают работу с текстами чуть-чуть удобнее. Одна такая интерфейсная штучка связана со всякими редакторскими исправлениями. Она еще не доделана, но страшно меня волнует. Например, Толстой что-то неразборчиво написал, кликаешь на это место, и появляется надпись «неразборчиво». Это красивое TEI-тегирование ― такое приятное баловство. Нужно понимать: одно дело, когда у тебя рукопись и ты рукопись публикуешь и в ней расставляешь теги впервые ― это важно. Другое дело, когда у тебя уже эта информация сохранена (в сноске или не в сноске), тогда это не так значимо, просто красивее.

Все редакторские правки мы с помощью специальных тегов выносим во всплывающие окна. Например, в бумажном издании Толстой пишет «Нап», а редактор дописывает «Наполеон», при этом «леон» вставлен в квадратные скобки. В цифровом издании мы получаем текст Толстого, как он был написан, вот со всеми этими сокращениями. И ты читаешь «Нап», а не ― «Нап[олеон]». 

Фрагмент черновика Л.Н. Толстого с сайта «Слово Толстого». Всплывающее окно использует информацию из TEI-разметки 

И мне кажется, что для читающего этот текст выглядит по-другому, мы видим именно толстовский текст, каким он был, а не текст додуманный редактором. И у меня есть немало прекрасных примеров. «ЕБЖ» («если буду жив», аббревиатура, которой регулярно пользовался Толстой ― прим. ред.) ― мы все знаем, а там такого очень много.

Наброски к Войне и Миру

д — дашь, о — ответ в д — день с — судный

Это уже, скорее, история про рецепцию, про особенности восприятия ― не про изменение смысла. Написано «зачеркнуто» или правда зачеркнуто? На смысл вроде не влияет, но как бы мы общаемся с текстом без «посредника». 


И вот такие вещи меня волнуют. Это то, что мне сейчас хочется доделать. Мне интересно разобраться во всех вот этих слоях, разновидностях исправлений и интерпретаций, которые там есть. Именно не в «больших» слоях, когда у нас есть несколько вариантов произведения, а вот в таких маленьких штучках вроде редакторских сносок.

Семейства текстов и нелинейное чтение

А вот связь разных текстов друг с другом — это как раз ключевая навигационная история, на самом деле альтернатива бумажной навигации по томам, которую мы придумали для «Слова Толстого» летом 2022. Мы принципиально по-новому связываем между собой тексты, для этого ввели понятие «семьи текстов», на сайте их можно найти в карточках произведений (например, см. раздел «Черновики и варианты» в разделе, посвященном повести «Хаджи-Мурат»).

«Мы связываем тексты Толстого принципиально по-новому» 

Связанные между собой тексты, например, варианты одного и того же текста, мы объединяем в семью. Мы модифицируем названия, которые были даны редакторами 90-томнике. У них всегда есть «семейное» имя ― например, в начале написано «Анна Каренина», а потом «первый вариант», «второй вариант», «третий вариант», «планы и заметки».

Важно, что есть «семейное» имя, а под ним идёт своеобразное ранжирование. Причём мы отмечаем, какие названия давал сам Толстой, а какие мы присваиваем сами. Туда же мы подтягиваем все комментарии, которые имеют отношение к тексту.

Семья текстов повести «Юность» Л.Н. Толстого на сайте «Слово Толстого» 

Дигитальное понимание текста подразумевает, что у нас есть множество вариантов. То есть и при линейном чтении мы тоже это понимаем, но в таком виде это иначе работает: ты можешь искать что-то только в основных, базовых текстах, а можешь включать в поиск черновики и варианты, и это разные поисковые задачи, а часто и разное пользовательские роли. И, главное, можно легко переходить из выдачи результатов в «семейный» каталог текстов. Вот это крутая придумка, гордимся ею.

Пользовательский сценарий для академического продукта

За время работы с наследием Толстого я сделалась чуть менее радикальной. 

Объясню: есть история про Digital Preservation, а есть ― про Digital Presentation. И когда мы только начинали, когда узнали, что такое TEI, и запускали эту историю, то я ходила по всем возможным площадкам и говорила: «Чуваки, смотрите, вы не тем занимаетесь, вы просто делаете сайтики, а нужно заниматься Digital Preservation! И нужно делать его правильно, по стандартам, и сайтик приложится потом». Вот, сейчас я не отказалась от идеи, что Digital Preservation ― это очень важно, но, конечно, я уже не считаю, что сайтик просто приложится.

Есть прямая связь между архитектурой твоего «сохранения» (preservation) и того, что ты можешь потом конвертировать в сайтик. Очень важна мысль о том, что работа над пользовательским сценарием академического продукта ― это практически сама по себе академическая работа. Это очень важно и очень нетривиально.

Когда ты работаешь с поиском, например, интернет-магазина, тебе очень важно ранжирование, привлечь внимание пользователя, дать ему то, что он хочет, и удержать его. А здесь оказывается, что ужасно важно уметь выдать всё. А технологий, как выдавать вот это всё красиво, чтобы никто не утонул, не так много. Причём важно уметь ещё выстраивать хитрую навигацию, внедрять сложные категории. И таких технологий тоже не так много. Например, те же технологии из Яндекс.Маркета тоже тебе подтягивают продукты, чтобы ты их обязательно купил, а не для того, чтобы ты пересчитал, сколько у тебя там есть предметов. Это страшно интересно и очень важно.

Русскоговорящее DH-сообщество и война

DH центр Вышки, вот тот, который мы видели, условно, с 2015-2016 года по 2022-й, вырос вокруг толстовского проекта ― его драйва, богатства, разнообразия. И во-многом поэтому DH-центр я рассматриваю как абсолютно свою историю. 

Почему до 2022 года? У нас была команда, подготовившая концепцию развития центра, но она была так или иначе распущена. А идея, что гуманитарному факультету нужно иметь что-то такое дигитальное, осталась. Сейчас есть новый директор у центра, который работает над новой концепцией с новым руководством. Мы не отказываемся с ним сотрудничать Но с новым DH-центром я себя уже не ассоциирую, это уже не моя история

Изменилось ли что-то в целом в русских Digital Humanities после 24 февраля? Digital Humanities в России никогда не были специфически русскими, они с самого начала своей не очень долгой истории интегрированы в глобальное коммьюнити. В Digital Humanities вообще ужасно интересно сочетаются два пафоса: с одной стороны интерес к мультикультурности и, в частности, к национальным культурам, а с другой стороны глобальность. Ценность локального культурного наследия на самом деле глобальная, общечеловеческая. Эта идея мне всегда была очень хорошо понятна, благодаря моим занятиям в области лингвистической типологии, с которых я начинала свою академическую жизнь: язык с миллиардами носителей или язык, на котором говорят только десять уже пожилых носителей, имеют одинаковую ценность для науки и человечества в целом. В каждом языке есть свое удивительное сочетание системности и креативности, и только сохранение и накопление знаний о том, как это может быть устроено локально, может дать нам ключ к ответу о глобальных границах систем и возможностей. Это разговор в сторону, но: отмена русской культуры, не отмена русской культуры … Толстой не про русскую культуру, это глобальная история. Как раз поэтому в ней такой драйв. И то же самое можно сказать и про русских формалистов, идеи которых спустя почти сто лет оказались чрезвычайно востребованы в современных computational literary studies. Это очень здорово, что у нас с вами есть возможность прочесть то, что они написали, на русском, но всё-таки это глобальная история.

«Ценность локального культурного наследия — глобальная, общечеловеческая» 

Сначала, конечно, все, кто делал что-то дигитальное в России, были ужасно разрознены. И мы пытались собрать людей в одно сообщество. Это вышло. И его теперь трудно разрушить, потому что связи не в институциях ― они в головах и в общих ценностях.

Конечно, как раз именно у дигитального сообщества ужасно много преимуществ. Мы это видим и по европейским коллегам. Это комьюнити очень открытое, в нем есть какая-то новая ценность социальных связей. Не старое вот это: тут учился, а вот этот мне кто-то там… А такая вот идеалистическая коммуна под девизом «Мы делаем одно дело». Это хорошо работает, вход в это коммьюнити гораздо проще, существовать внутри него гораздо легче.

«Сообщество трудно разрушить, потому что связи в головах» 

Очень показательной оказалась история с нашим письмом, которое мы написали в самом начале войны. Во-первых, мы собрали подписи русских коллег, так или иначе связанных с DH, и их было гораздо больше, чем мы думали. Во-вторых, мы получили обратную связь от европейского сообщества, они, буквально, сказали про нас: «Это смелые люди, им гораздо труднее поставить подпись, чем нам». Эта реакция нас очень поддержала. И нам было очень важно сказать, что мы чувствуем себя частью глобального мира, и в частности глобального DH коммьюнити, разделяем его ценности, нам было важно не промолчать. Мы сказали и нас услышали ― история нетривиальная, потому что я знаю много международных научных ассоциаций, которые собирали целые собрания и принимали решения по исключению российского представительства. 

«В начале войны нам было важно не промолчать» 

Всё это важно на ценностном уровне, В самом начале, когда наше сообщество только формировалось, я не придавала этому вопросу большого значения. Меня даже раздражал несколько вот этот заход ― «мы все одно комьюнити» и так далее. Но я очень пересмотрела свои взгляды, больше не отношусь к этому вопросу с таким снобизмом. Сейчас стало понятно, что история про сообщество — это сильная история.

Коллеги в облаках

Я придумала DH Cloud — сообщество, не знающее институциональных и географических границ, и теперь в основном указываю его как свою аффилиацию. У нас есть Telegram-канал, и там появляются иногда анонсы. Но пока это ― инициатива-эксперимент. Она, скорее, не образовательная, а проектная, популяризаторская, событийная.

Когда русскоязычное сообщество только формировалось, мы были страшно раскиданы по институциям. И собирали людей мы так же ― через институции: в Красноярске один центр, в Вышке другой, в ИТМО ― третий, и ещё, и ещё. Мы долго действовали через институции: кто-то один идет к начальству ― проводится конференция, кто-то другой ― возникает ассоциация. В этом смысле, мы очень много коллаборировали с институциями.

Сейчас стало ясно, что институции нам не помогут, а может, только навредят, а иногда и мы им… А кто-то вообще оказался вне институций. Между тем для сообщества все участники очень важны. Поэтому и возникла идея, что нужно пространство, которое поможет держать связь. 

«стало ясно, что институции нам не помогут, а может, только навредят, а иногда и мы им» 

DH Cloud не противопоставляет себя институциям. Ты можешь заниматься своими делами и одновременно участвовать в жизни DH Cloud. Здесь нет никакого противопоставления, это просто немного другой механизм связи людей ― будто бы более удобный сейчас.