Читать нас в Telegram
Иллюстратор: Женя Родикова

Для гуманитариев особую ценность представляет оцифровка литературного наследия. При этом важно сделать тексты машиночитаемыми, то есть предоставить компьютеру возможность проводить их интеллектуальный анализ и систематизировать внутритекстовые компоненты. Такой подход к интеграции литературных произведений с цифровой средой актуализирует задачу разработки семантической поисковой системы. 

Семантический поиск производится по заранее размеченным смысловым сущностям, которые представляют потенциальный интерес для исследователей. Настоящими же библиотеками будущего являются издания произведений, объединенные неким общим признаком. Такие издания позволяют изучать как особенности входящих в них текстов, так и специфику авторского стиля и даже отношения между авторами, жанрами и литературными эпохами. Цифровые издания текстов с единым полем семантического поиска называются семантическими изданиями [1].

В Центре цифровых гуманитарных исследований ЮФУ совместно с Южным научным центром Российской академии наук и Высшей школой экономики активно разрабатывается семантическое издание текстов А. П. Чехова Chekhov Digital. Издание готовят на основе Полного собрания сочинений и писем в 30 томах, изданного в 1974-1983 гг. (далее ПССиП). 

Отметим, что Chekhov Digital — не единственный проект, над которым проводится совместная работа центров цифровых гуманитарных исследований: параллельно в НИУ ВШЭ разрабатывается семантическое издание Полного собрания сочинений Льва Николаевича Толстого Tolstoy Digital. Подробнее об этом проекте можно почитать тут.

Структурно-семантическая разметка

Для реализации системы семантического поиска по собранию сочинений и писем А. П. Чехова сперва осуществляется семантическая разметка входящих в него текстов. В рамках проекта Chekhov Digital в качестве языка разметки мы используем стандарт TEI. Он основывается на синтаксисе языка XML и определяет набор тегов и атрибутов для разметки различных структурно-семантических единиц литературных текстов и изданий. 

Каждый TEI-документ представляет собой законченную XML-разметку отдельного текста. Он имеет двухчастную структуру, которая включает описание библиографических и небиблиографических метаданных (название, год и место написания и публикации, объём, номера тома и страниц и т. д.), а также структурно-семантическую разметку собственно текста. В структурно-семантической разметке выделяются такие единицы, как заголовки, страницы, абзацы, рисунки с подписями, редакторские примечания и сноски. В письмах дополнительно размечаются подписи, постскриптумы и почерки. 

Разметка авторского текста письма

В рамках проекта была разработана система автоматической разметки структурных компонентов и метаданных текстов на основе электронной версии издания ПССиП, представленной на сайте ФЭБ [3]. С помощью библиотеки natasha в текстах также была осуществлена разметка именованных сущностей. В произведениях мы выявили имена персонажей и даты, благодаря чему также удалось разметить времена года. В письмах же на основе указателей имён и названий мы не просто разметили имена, но и ассоциировали их с конкретными людьми.

Корпус таких TEI-документов служит основой для представления трудов писателя в виде единой семантической сети, которую можно использовать для последующего компьютерного анализа и надстройки интерактивной поисковой системы.

База знаний из указателя имён и названий

Одной из важных проблем международного чеховедения является изучение взаимосвязи творческого стиля А. П. Чехова с личностью писателя. Оно возможно благодаря богатому эпистолярному наследию автора – около 4500 тысяч писем, написанных в период с 1875 по 1904 годы. Ввиду этого одной из задач проекта Chekhov Digital является представление социальной жизни писателя в виде семантической сети. 

Для этого на основе указателей имён и названий научного издания полного собрания писем Чехова была создана предварительная база знаний. В этой базе с именами собственными, упоминающимися в письмах Чехова и редакторских примечаниях, ассоциированы описание именованной сущности, страницы её упоминания, варианты имени, а также иерархические отношения с другими именованными сущностями. Такая структура данных служит основой для создания справочника по социальной вселенной писателя и реализации системы поиска по нему.

Ключевой особенностью указателей ПССиП является наличие в них информации о номере тома и странице упоминания имени: она служит ценным материалом для разметки и связывания именованных сущностей в текстах писем. Для каждой страницы полного собрания писем были выбраны имена, которые упоминаются на ней согласно указателю. Затем с помощью системы автоматического распознавания именованных сущностей был сгенерирован список встречающихся на странице имён собственных. В завершение оба списка сопоставлялись друг с другом. Для каждого из имён-фрагментов вычислялось наиболее вероятное соответствие из указателя – связывание в пары осуществлялось методом наибольшей общей подстроки. Размеченные и связанные с локальной базой знаний имена служат материалом для исследования более узких контекстов упоминаний сущностей и создания графического интерфейса.

Связывание фрагментов чеховских писем с локальной базой знаний преобразует цифровое издание в семантическую сеть. Однако социальные связи Чехова интересно исследовать не только в контексте его работ, но и в контексте целой эпохи, в сопоставлении с социальными вселенными его современников. Чтобы обеспечить возможность объединения различных семантических изданий в единое поле семантического поиска, часть сущностей локальной базы знаний Chekhov Digital были автоматически связаны с URI-идентификаторами соответствующих сущностей во внешней базы знаний «Викиданные». Это позволит исследовать пересечения социальных сетей различных авторов, представленных в отдельных независимых семантических изданиях [2].

Сайт Chekhov Digital: структура

Для организации семантического поиска по размеченными произведениям писателя был создан удобный интерфейс, представленный на сайте Chekhov Digital

Главная страница сайта

На данный момент реализованы следующие возможности семантического поиска:

Поиск и скачивание доступны для произведений (тома 1-3) и писем (тома 10-12).

Расширенный поиск по дате и/или времени
Форма отправки сообщения об ошибке

Сейчас ведется работа над решением следующих задач:

  • редизайн некоторых компонентов сайта
  • ускорение всех видов поиска
  • возможность поиска по 1-9 томам писем
  • возможность работы с указателем имен и названий, представление семантической сети социальных связей писателя.

Источники

  1. Гронас М., Орехов Б. В. Что такое семантическое издание и почему в будущем все издания станут семантическими? / М. Гронас, Б. В. Орехов // A/Z: Essays in Honor of Alexander Zholkovsky. Academic Studies Press, 2018. С. 246-268.
  2. Петров К. О. Проект Chekhov Digital: семантическая разметка именованных сущностей в письмах А. П. Чехова для филологических исследований: выпускная квалификационная работа магистра (магистерский проект) / К. О. Перов. Ростов-н/Д.: 2022. 43 с. 
  3. ЭНИ «Чехов»