Читать нас в Telegram
Иллюстрация: Юля Данилова

При работе с древними рукописями расположение частей текста на странице, иллюстрации и начертание символов имеют большое значение для палеографов* и искусствоведов. Но текст в формате «картинки» не всегда удобен для научного анализа. Чтобы облегчить поиск по тексту или провести анализ вхождений слов и конструкций, гораздо удобнее использовать распознанную версию исходного текста. Поэтому учёным нужны инструменты, которые смогли бы осуществлять распознавание автоматически, так как источник может быть внушительного размера.

Расшифровка рукописей на арабском языке сложна с самого начала — независимо от того, работает человек в цифровой среде или нет. Распознавание трудного шрифта, восстановление пропущенных участков из-за потери материала, навигация по рукописям с текстом, идущим в разных направлениях вверх и вниз по странице — это вызовы палеографической работы. Они варьируются по уровню сложности от одной рукописи к другой или даже внутри одной и той же рукописи от страницы к странице. Легко пропустить строку при транскрипции или допустить другие ошибки. Цифровая среда также вносит свои сложности: разрешение может быть невысоким, возрастает риск пропуска или замены строк.

Арабская рукопись XI века исламского богослова Кади Ийяда «Аш-Шифа би-та’риф хукук аль-Мустафа»
Арабская рукопись XI века исламского богослова Кади Ийяда «Аш-Шифа би-та’риф хукук аль-Мустафа». Manuscripts Center, Bibliotheca Alexandrina

С чего начинается распознавание арабских текстов 

Layout Analysis — первый этап при анализе текстового документа. Это алгоритм определения частей: заголовка, основного текста, сносок и других — на странице текста перед его обработкой в OCR-движке. Подготовка документов для обучения моделей OCR включает несколько отдельных шагов, включая семантическую аннотацию, исправление ошибок при Layout Analysis и редактирование неправильных транскрипций. Аннотация областей в документе позволяет выбирать определённые типы областей для экспорта. Например, можно экспортировать только основной текст, исключая номера страниц, сноски и заголовки. Поэтому правильный Layout Analysis является одной из важнейших функций для пользователей, которые хотят манипулировать результатами OCR-обработки. 

Коллектив разработчиков The Open Islamicate Texts Initiative (OpenITI) из Института изучения мусульманской цивилизации Университета Ага Хана в Лондоне и Института персидских исследований Рошан Университета Мэриленда, Колледж-Парка и Гамбургского Университета разработали алгоритм eScriptorium, который помогает исследователям механизировать эту задачу. 

Конфигурация алгоритма eScriptorium по умолчанию включает четыре тега:

  • «комментарий»; 
  • «иллюстрация»; 
  • «основной»;
  • «заголовок».

Пользователь может удалить любой из них или добавить новый.

Арабский текст, размеченный вручную
Документ, размеченный вручную. Разными цветами обозначены разные семантические категории. (Birgivi. 2002. at-Ṭarīqa al-Muḥammadīya, Damascus: Dār al-Qalam)

Однако на практике применение стандартных семантических категорий ко всем видам печатных материалов, созданных в исламском мире, оказалось не таким уж простым. Разнообразие нестандартизированных макетов арабоязычных печатных материалов ставит всё новые вызовы разработанному алгоритму.

Не всегда легко отличить основной текст от его окружения. Например, заголовки между блоками текста затрудняют определение границ основного текста. Следует ли рассматривать басмалы — фразы «во имя Бога милостивого и милосердного», расположенные в начале страницы, — как часть основного текста? По форме они выглядят, как заголовки, но по семантике они определённо ими не являются.

Басмала из арабского текста Корана, сура «Ас-Саджда»
Розовым цветом выделена басмала в начале страницы (Коран, сура «Ас-Саджда») 

Ещё одна трудность книг, напечатанных арабицей, заключается в том, что различие между иллюстрацией и текстом не всегда очевидно. Например, басмалы или заголовки, написанные каллиграфией, часто сложно отнести к одной семантической категории.

Примеры каллиграфии басмалы
Примеры каллиграфии басмалы
Примеры каллиграфии басмалы (Birgivi. 2002. at-Ṭarīqa al-Muḥammadīya, Damascus: Dār al-Qalam; ʻAsalī, Bassām. 1988. Fann al-ḥarb al-Islāmī, Lubnān: Dār al-Fikr.)

Даже номер страницы, одна из самых очевидных категорий семантических областей, подвергается испытанию необычными макетами. В раннеперсидских текстах содержатся два отдельных номера — один вверху и один внизу страницы. Номер сверху относится к номеру страницы, а нижний указывает на порядок разделов на странице. 

Арабский текст из сборника поэм иранского поэта Хафиза Ширази «Диван»
Печатные тексты на арабице полны сюрпризов, которые нелегко стандартизировать для Layout-разметки. Например, вот две разные нумерации на страницах сборника поэм иранского поэта Хафиза Ширази «Диван» (1281 [1864]. Būlāq)

На самом деле, большинство проблем возникают при разборе ранних печатных материалов исламского мира. В ХХ веке появились более стандартизированные структуры книг как на арабском, так и на персидском языках. Они в большинстве моделируются по современным макетам печатных материалов на западных языках. Но даже современные текстовые файлы, записанные арабицей и не имеющие сложного оформления, даются компьютеру не так легко.

Какие инструменты помогут распознать текст на арабице 

Исследователи Ишида Юри из Университета Окаяма и Синода Томоаки из Токийского университета иностранных языков провели сравнительный анализ нескольких OCR моделей и выяснили, что ни одна из них не может распознать записанный арабицей текст достаточно точно. 

Для начала в выборке из 25 программ только 16 поддерживали распознавание арабицы. Каждая модель проверялась на четырёх текстах разных шрифтов. В результате средняя ошибка по слову при распознавании для каждого из текстов превышала 30%.

Авторы отмечают, что «OCR-инструменты, поддерживающие арабский язык, всё ещё находятся в стадии развития, и, может быть, рано применять их для регулярного использования» и рекомендуют подождать несколько лет, пока технология не будет улучшена. Они также советуют проверять текст, который необходимо распознать, на всех имеющихся алгоритмах, чтобы понять, какой из них лучше справится с конкретным шрифтом. 

Автор apjmallett на портале The Digital Orientalist замечает, что многие исследователи, опирающиеся в своих работах на результаты, полученные в ходе обработки текста OCR-алгоритмом, могут не отдавать себе отчёта в том, что их данные будут нечистыми из-за низкой точности алгоритма. Для научного исследования погрешность в 30% недопустима, поэтому арабисты вынуждены искать альтернативные способы работы с материалом.

Как расшифровать древние арабские рукописи 

А что же делать с древними арабскими книгами и рукописями? Неужели компьютер совсем с ними не справится? Эту проблему пытаются решить разработчики проекта KITAB. Они создают компьютерные инструменты для работы с ранними арабскими и персидскими текстами. Например, они разработали систему распознавания текста, с помощью которой удалось составить довольно внушительный корпус классических текстов, который на сегодня включает в себя 11 296 текстов 2 854 авторов и 2 262 096 158 словоформ. 

Инструмент, который может помочь в транскрибировании рукописей, — это уже упомянутая платформа eScriptorium. Она умеет сегментировать и автоматически транскрибировать тексты для последующей ручной корректировки. eScriptorium можно использовать для работы с рукописями и как инструмент для палеографии. Но для первичной оцифровки рукописного текста всё равно придётся потратить значительное количество времени на корректировку автоматической разметки. Сначала нужно вручную выделить линиями направление строк, затем разметить диакритические знаки и огласовки, относящиеся к отдельным строкам. Так как начертание символов сильно варьируется от автора к автору, часто машинное обучение проводят на материале конкретного произведения с последующей ручной выверкой.

Скрин eScriptorium, программы по распознаванию текста с помощью машинного обучения
Скриншот окна eScriptorium из руководства по распознаванию текста с помощью алгоритма

Инструменты оцифровки текстов, записанных арабицей, на сегодняшний день развиты достаточно слабо. Это касается, в первую очередь, печатных классических текстов и рукописей. Из-за отсутствия точных компьютерных методов их анализа данные исследователей могут быть неточными. Вероятно, в будущем эта важная сфера получит своё развитие и новому поколению учёных-арабистов откроются новые грани удивительной вселенной арабо-мусульманской литературной традиции.

*Палеография — историко-филологическая дисциплина, изучающая создание знаков письменности и их развитие.

Источники

  1. Some Thoughts about Arabic-Script OCR 
  2. A Study on the Accuracy of Low-cost User-friendly OCR Systems for Arabic: Part 1
  3. A Study on the Accuracy of Low-cost User-friendly OCR Systems for Arabic: Part 2 
  4. KITAB: OpenITI release 2022.2.7
  5. OpenITI: a Machine-Readable Corpus of Islamicate Texts
  6. Open Islamicate Texts Initiative
  7. Using eScriptorium for Manuscript Transcription
  8. Challenges of Layout Analysis across Arabic-Script Training Data 
  9. The Challenge of an Unknown Typeface
  10. KITAB Corpus Arabic Metadata