Читать нас в Telegram
Иллюстратор: Женя Родикова

Сохранение текстов в электронном формате дает много новых возможностей: высокая скорость поиска информации, легкость правки, мультимедиа, гиперссылки. TEI — это машиночитаемый язык, который упрощает работу с текстом и выделяет необходимую информацию тегами.

Но какие преимущества есть у кодирования TEI перед другими форматами? В отличие от остальных, TEI — это специализированный язык разметки, на котором хранятся электронные текстовые источники, сведения об авторе, выходные данные, первоисточники, параметры рукописи, критический аппарат и т.д.

TEI был разработан в 1987 году, а кодифицирован в 1990-м. Это попытка создать максимально исчерпывающий инструментарий разметки любых текстов, в нем есть единая система, набор рекомендаций и практик. В отличие от других форматов, TEI можно обогащать и персонализировать в соответствии со специальными задачами. Работа TEI основывается на формате кодирования текста XML.

Что такое XML?

XML — мета-язык разметки, на котором построен TEI. XML широко используется для передачи данных между программами. Самая главная часть синтаксиса XML — это теги, которые однозначно выделяют некоторые кусочки текста для компьютера. Например, здесь мы обозначили с помощью тегов все упоминания людей:

Как видно из примера, теги бывают открывающими (<person>) и закрывающими (</person>). Для снабжения тегов дополнительной информацией у открывающих тегов бывают атрибуты. Например, здесь мы добавили атрибут birth, значением которого является дата рождения каждого упомянутого человека:

Тег <person> придумали мы сами. В XML вообще нет готового предзаданного набора тегов: можно ставить свои удобные теги. Этот формат отличается от других разметок (HTML, TeX) тем, что в XML теги принято использовать для описания содержания, а не внешнего вида или расположения текста. Например, можно описать квартиру или пошаговый рецепт приготовления хлеба. Смысл и интерпретация каждого тега задаются отдельно, то есть при кодировании нет определенного синтаксиса в виде слов.

Пример кодирования TEI

Пример, с помощью которого формат TEI станет более понятен.

Возьмем отсканированный текст из «Джейн Эйр» Шарлотты Бронте без учета требований разметки:

CHAPTER 38

READER, I married him. A quiet wedding we had: he and I, the par-
son and clerk, were alone present. When we got back from church, I
went into the kitchen of the manor-house, where Mary was cooking
the dinner, and John cleaning the knives, and I said —
’Mary, I have been married to Mr Rochester this morning.’ The
housekeeper and her husband were of that decent, phlegmatic
order of people, to whom one may at any time safely communicate a
remarkable piece of news without incurring the danger of having
one’s ears pierced by some shrill ejaculation and subsequently stunned
by a torrent of wordy wonderment. Mary did look up, and she did
stare at me; the ladle with which she was basting a pair of chickens
roasting at the fire, did for some three minutes hang suspended in air,
and for the same space of time John’s knives also had rest from the
polishing process; but Mary, bending again over the roast, said only —
’Have you, miss? Well, for sure!’
A short time after she pursued, ’I seed you go out with the master,
but I didn’t know you were gone to church to be wed’; and she
basted away. John, when I turned to him, was grinning from ear to
ear.

Текст с использованием TEI:

 <pb n=’474′>

<div1 type=chapter n=’38’>

<p>Reader, I married him.  A quiet wedding we had: he and I, the parson and clerk, were alone present.  When we got back from church, I went into the kitchen of the manor-house, where Mary was cooking the dinner, and John cleaning the knives, and I said &dash;

<p><q>Mary, I have been married to Mr Rochester this morning.</q> The housekeeper and her husband were of that decent, phlegmatic order of people, to whom one may at any time safely communicate a remarkable piece of news without incurring the danger of having one’s ears pierced by some shrill ejaculation and subsequently stunned by a torrent of wordy wonderment.  Mary did look up, and she did stare at me; the ladle with which she was basting a pair of chickens roasting at the fire, did for some three minutes hang suspended in air, and for the same space of time John’s knives also had rest from the polishing process; but Mary, bending again over the roast, said only &dash;

<p><q>Have you, miss? Well, for sure!</q>

<p>A short time after she pursued, <q>I seed you go out with the master, but I didn’t know you were gone to church to be wed</q>; and she basted away.  John, when I turned to him, was grinning from ear to ear.

В первой отсканированной текстовой записи есть такие недостатки, как номера страниц и нижние колонтитулы, которые идут непосредственно в тексте. В нем нет разницы между одинарными кавычками и апострофами, поэтому трудно точно определить, какие фразы являются прямой речью, абзацы выглядят как отступы.

Второй текст используется при кодировании в соответствии с принципами TEI. Он отличается от первого тем, что в нем четко выявляется деление на абзацы, и апострофы отличаются от кавычек, объективные ссылки используются для подчеркивания букв и длинных тире, концы страниц помечаются одним пустым элементом , слова, вырванные в конце строк, полностью перемещаются на следующую строку без комментариев, и для удобства чтения перед каждым абзацем добавляется пустая строка.

Одной из особенностей кодирования является избирательность. TEI раскрывает только те особенности текста, которые интересуют кодировщика. Даже на этом коротком примере легко представить, как можно улучшить кодирование. Например, можно задать правильную форму диалектных выражений или связать фрагменты текста с изображениями и звуками, хранящимися на других носителях. Можно выделить упоминания персонажей.

И конечно, кроме разметки самого текста TEI хранит множество мета-информации: время написания, дата публикации, библиография, особенности рукописи, даже гендеры действующих лиц — все это можно закодировать по стандартной процедуре. Вот так выглядит часть TEI с метаданными из корпуса русской драмы RusDraCor:

Стандарты TEI и его преобразования

Первоначальная разметка TEI включала все уровни лингвистического анализа, контекстные метаданные всех видов, базовые структурные и функциональные компоненты, дипломатическую транскрипцию, изображения, аннотации, ссылки, соответствия, выравнивание, объекты, содержащие особые данные: дата, время, место, лицо, событие и т.д. (распознавание элементов предметной области), метатекстовую аннотацию (исправления, удаления и т.п.). Но в 2007 году был выпущен новый TEI P5, в котором появились новые характеристики. С одной стороны, в новом формате кодирования появились трудности для разработки программных обработок, анализа и публикации, а с другой стороны, это обеспечило большую гибкость. К примеру, новшество в виде лингвистической разметки, учитывающая разночтения и варианты интерпретации фрагментов текста на разных уровнях языковых структур было трудно совместить с базовыми инструментами лингвистической разметки.

Множество проектов используют TEI для литературоведческих и лингвистических целей. TEI лежит в основе корпуса средневекового французского языка Base de Français Médiéval, на котором тексты размечены в формате XML, на основе TEI в соответствии со спецификацией проекта и с учетом последующего лингвистического анализа.

Стандарт TEI предоставляет богатые возможности для представления разной текстологической информации в электронном виде. Он применяется в различных областях гуманитарного знания и помогает исследователям, которые, с одной стороны, опираются на проработанную систему разметки, а с другой стороны, сами дополняют практику применения TEI собственным опытом.

Видео на русском языке о базовых возможностях TEI:

Видео на русском языке о кодировании именованных сущностей и физических свойств документа:

Источники