В феврале 2021 года в «Лаборатории ненужных вещей» Юлия Фурман и Анна Черкашина прочитали открытую лекцию о своей работе с платформой Transkribus. Пересказываем ее и разбираемся, кому и зачем может понадобиться Transkribus.
Как работает Transkribus?
Transkribus — платформа для оцифровки и распознавания текста на основе технологии HTR (Handwritten Text Recognition)[1], которая позволяет обучать специальные модули (англ. models) распознавания текста. Обученные модули способны распознавать рукописные, машинописные и печатные документы на самых разных языках, в частности, на классическом сирийском — одном из главных языков восточного христианства.
Но зачем вообще распознавать и изучать сирийские тексты? Отвечает филолог, переводчик, руководитель семинара «Сирийские мистики VII-VIII вв.» в Лаборатории ненужных вещей Максим Калинин: «Сирийское христианство оставило нам океан текстов столь же глубоких и значимых, как и широко известные тексты греко-римской христианской традиции. При этом, по разным причинам, тексты эти остаются малоизученными. Сотни памятников, многие из которых имеют всемирное значение и представляют интерес для философов, религиоведов, теологов, историков и антропологов не переведены, не изданы, и потому остаются малодоступными».
Один из таких неизданных текстов — всемирная хроника Йоханнана бар Пенкайе, написанная в конце VII в., при подготовке которой к изданию Юлия и Анна использовали Transkribus. Это довольно большой текст, около 300 рукописных страниц, и первое, с чем столкнулись исследовательницы — все 300 страниц нужно набрать вручную, а это долго и требует постоянной высокой концентрации внимания. Transkribus помогает ускорить процесс.
Но для того, чтобы научить модуль Transkribus распознавать почерк, которым написан конкретный текст, или почерк определенного писца, отдельный тип письменности (например — сирийскую) или ее разновидность (например — восточносирийскую), нужно натренировать программу на некотором количестве изображений с текстом, на нескольких страницах вашей рукописи. Чем больше данных, на которых обучается модуль, тем точнее он будет работать.
Разработчики Transkribus говорят, что минимальное количество данных, нужных для того, чтобы создать работающий модуль — примерно 80 страниц. Язык или тип письменности не важны. Программа сравнивает изображения символов с их транскрипцией и учится правильно расшифровывать эти изображения, поэтому текстом, с которым вы работаете, может быть и сборник стихов Блока в дореформенной орфографии, и рукопись «Беовульфа», и сирийская хроника.
Чтобы программа обучалась, ей необходимо несколько раз сравнить автоматически сгенерированную транскрипцию (первоначально распознанный текст) с правильной отредактированной транскрипцией. И чем чаще модуль видит транскрипцию определенных символов, тем лучше он распознает символы этого конкретного почерка.
В Transkribus есть функция сравнения транскрипции, получившейся при первичном распознавании текста, с уже отредактированной транскрипцией. Выглядит это так:
Как часто ошибается Transkribus?
После тренировки модуля его эффективность оценивается на тестовом образце. Например, вы тренируете свой модуль на какой-то конкретной рукописи. Часть страниц этой рукописи вы намеренно не показываете программе во время тренировки, и, когда хотите проверить ее эффективность, то показываете страницы, которые программа еще не видела. Эффективность модуля оценивается по проценту ошибочных символов. Модули, которые распознают тексты с ошибочностью менее 10%, считаются эффективными.
При обучении на материале объемом около 10 тысяч слов, ожидаемый процент ошибок, с которым модуль будет распознавать текст — 2-4%. Если ваш текст, а значит и ваш модуль включает несколько «рук» или почерков, программе понадобится большее количество данных, уже несколько десятков тысяч слов. При этом и процент ошибок будет возрастать (4-6%).
Однако если в типе письма или конкретном почерке все буквы похожи друг на друга, результаты будут хуже. Похожие символы дают меньше информации, на которой Transkribus может обучаться.
Три условия для хорошей работы модуля:
- хорошее качество транскрипции, которую вы производили, когда обучали модуль;
- аккуратность/неаккуратность почерка;
- хорошая сохранность рукописи (достаточно высокое разрешение и контрастность ее отсканированного изображения).
Многие сирийские средневековые рукописи писались профессиональными писцами, в них мало индивидуальных особенностей и практически не отличаются почерки. С таким материалом Transkribus справляется точнее и лучше.
Что еще может Transkribus?
Разработчики платформы говорят, что в настоящий момент существует около 70 публичных модулей и где-то 8 400 частных. Среди них есть и сирийские модули , разработанные Beth Mardutho — организацией, занимающейся изучением сирийского наследия. Для разных видов сирийского письма — серто, эстрангело, восточносирийское — сделаны отдельные модули. Чтобы работать с сирийскими модулями, нужно написать создателям и запросить доступ. Этот же алгоритм может работать для других интересных вам частных модулей.
Еще в Transkribus есть функция поиска по ключевым словам или по регулярным выражениям в уже распознанном тексте. Поиск позволяет находить нужный фрагмент даже в тексте с еще не отредактированной транскрипцией. Это значит, что с помощью платформы Transkribus можно массово детализировать рукописи и создавать корпуса, не тратя время на ручную корректуру рукописей и транскрипции.
Раньше Transkribus был абсолютно бесплатным, а с недавних пор разработчики решили начать его монетизировать. Каждый пользователь получает пятьсот т.н. «кредитов», которыми он расплачивается за прогонку модуля распознавания текста (за каждую страницу). Пятьсот кредитов — довольно много. На 120 кредитов можно распознать около 100 страниц, а на 500 подготовить к изданию довольно большой текст.
Сирология — очень молодая наука, которой для освоения огромного массива неизученной информации жизненно необходимы такие технологии как Transkribus, позволяющие распознавать и оцифровывать тексты. И сирология такая не одна. Transkribus способен распознавать и оцифровывать тексты на любом языке, относящиеся к самым разным историческим периодам и может быть полезен самому широкому кругу исследователей.
Инструкция по работе с Transkribus: от установки до распознавания (eng.)
Инструкция по обучению и тренировке собственного модуля (eng.)
Слушали и записывали Ксения Костомарова и Лаборатория ненужных вещей.
Системный Блок благодарит за помощь в подготовке материала и ценные комментарии Юлию Волохову, Юлию Фурман, Анну Черкашину и Максима Калинина.
Сноска: [1] — В отличие от технологии OCR (optical character recognition), HTR обрабатывает не отдельные буквы, а изображение целых строк. При этом Transkribus можно использовать и для распознавания уже изданных текстов, в случае если их письменность плохо поддается OCR.