Читать нас в Telegram
Иллюстрация: Женя Родикова

Исследователи стран Азии и Африки сегодня все чаще используют разные цифровые методы в своей работе. Но зачастую они сталкиваются с тем, что эти инструменты работают с иероглифами, арабской вязью или еврейским письмом совсем не так хорошо, как с латиницей.

В своей статье специалист по использованию цифровых технологий в изучении ислама, основатель издания The Digital Orientalist Корнелис ван Лит поднимает вопрос об адаптированности инструментов DH для работы с языками, использующими письмо справа налево. Он называет такую систему right-to-left (RTL), а привычную нам письменность — LTR. В данной статье также будут использоваться эти обозначения. 

Востоковедение и DH

Для большинства ученых, только начинающих применять цифровые методы, готовые DH-инструменты (такие как Transkribus, Voyant Tools или любая специализированная база данных) уже являются серьезным подспорьем, помогающим значительно улучшить качество исследований. Для того, чтобы двигаться дальше, углубляться в DH, обычно требуется получить некоторый опыт в программировании. Существует множество ресурсов и инструментов, которые могут в этом помочь. Некоторые из них незаменимы, например, редакторы кода — особенно Visual Studio Code (VS Code).

Но быстро станет понятно, что VS Code был разработан для работы с данными, имеющими кодировку латиницей (если быть точнее, то именно для английского языка). Попытка использовать шрифты RTL в подобной среде может привести к появлению целого ряда трудностей. Такие проблемы актуальны не только для VS Code, но и для других популярных редакторов, например, PyCharm, RStudio.

Трудности при использовании редакторов кода

В 2016 году пользователи уже указывали разработчикам на острую необходимость поддержки RTL. Одна из самых конкретных и простых просьб от пользователей заключалась в том, чтобы иметь RTL-строки, расположенные справа, но ничего так и не было сделано. 

Так, большую проблему представляет пунктуация. Точки появляются не в той части предложения, а скобки отображаются неправильно и дополнительно нарушают порядок слов.

Еще одна сложность возникает, например, когда пользователь хочет вставить в предложение на английском арабское слово. В таком случае происходит смешение RTL-скриптов с LTR-скриптами, результаты которого могут быть неожиданными. Схожая проблема заключается в том, что при наличии в строке смешанного RTL- и LTR-текста положение курсора становится непредсказуемым, что затрудняет работу с текстом.

Это не проблема ввода текста в неправильном порядке, не проблема поддержки арабского языка и кодировки текста. Всему виной — проблема рендеринга в редакторе кода.

Рисунок 1. Пример ошибок в отображении арабского текста в VS Code

Пользователь вводил все следующим образом: сперва слово, которое мы видим здесь первым слева (سلام), затем слово посередине (babakfp), потом крайнее правое слово с вопросительным знаком без пробела (خوبي). И хотел он, чтобы это отображалось вот так:

Рисунок 2. Пример правильного отображения арабского текста в VS Code

При таком, порой непредсказуемом, поведении работа с большими объемами текстов становится если не практически невозможной, то, по крайней мере, раздражающей.

Натан Гибсон, DH-исследователь из Франкфуртского университета им. Гёте, выяснил, что данная проблема часто встречается во многих инструментах. OpenITI сделала все возможное, чтобы решить эту проблему, внедрив собственную систему разметки (mARkdown), которая позволяет использовать все виды тегов, не нарушая порядок слов в RTL/LTR. Некоторые люди отделяют англоязычные теги TEI от RTL-текста, помещая их на отдельные строки. Это избавляет от проблем в редакторе, а результат остается прежним. Похожим методом пользуются и при наборе сообщений в мессенджерах, когда не так важна красота и целостность текста.

Определенно, серьезный научный интерес к этому вопросу растет как со стороны историков, так и со стороны специалистов по DH, но реальное развитие, похоже, идет медленно.

RTL-шрифты в жестоком мире LTR

Проблема RTL-шрифтов, пытающихся существовать в цифровом LTR-мире, многогранна. К. ван Лит хотел показать, что попытка разработать собственные решения для своих исследований и даже просто выход за пределы стандартного функционала уже существующих DH-инструментов может столкнуть пользователя с рядом трудностей. Большинство этих проблем связано с тем, что языком интернета и глобальной цифровой среды является именно английский, то есть LTR-язык. 

Почти не было достигнуто никакого прогресса в решении конкретного вопроса о поддержке RTL в Visual Studio Code. Относительно мало людей заинтересованы в решении этой проблемы, хотя на деле сталкиваются с ней многие. И возможно, перед научным сообществом стоит задача придать вес и поддержать инициативы по улучшению поддержки RTL-скриптов в VS Code и других инструментах.

Насколько все плохо?

Проблемы из статьи ван Лита кому-то могут показаться далекими, не такими уж существенными и не очень актуальными. Однако это только на первый взгляд. За примерами сложностей при работе с RTL-языками далеко ходить не надо: уже в Word начнутся трудности при попытке вставить пример на арабском в русско- или англоязычный текст. Хотя с самим по себе арабским языком в Word вполне комфортно работать: он поддерживает даже дополнительные настройки и шрифты, но ровно до тех пор, пока пользователь не захочет вставить слово на латинице в свой стройный арабский текст. Похожая история случается во всех популярных текстовых редакторах. 

Отдельная проблема — некорректный вывод RTL-текстов при подключении графического пользовательского интерфейса. Библиотеки и другие готовые решения в области компьютерной лингвистики также не всегда хорошо ложатся на RTL-шрифты. Например, графический пользовательский интерфейс часто отказывается правильно отображать RTL-текст.

Рисунок 3. Проблемы с выводом текста на примере арабского языка

Конечно, проблемы встречаются далеко не только в тех цифровых инструментах, которые были описаны выше. Из-за сложностей с арабскими шрифтами при визуализации или выводе результатов арабский текст зачастую разбивается на отдельные буквы, как показано в предыдущем примере.

Есть и более глубинные проблемы, связанные с тем, что ученые не всегда могут доверять уже имеющимся инструментам. Так, например, возникают ситуации, когда конечные результаты могут частично искажаться из-за ситуативных проблем с обработкой RTL-языков. И хотя библиотека для стилометрических исследований Stylo обычно качественно работает с разными языками, исследователям восточных текстов все равно стоит перепроверять результаты дважды.

Но и чрезмерно сгущать краски тоже не стоит. Подобные сложности работы с RTL-текстами во многих инструментах не всегда являются критичными. Со многими трудностями люди, постоянно занимающиеся, например, арабским языком, уже научились справляться. Постепенно адаптируются к RTL-языкам и сами инструменты. Популярный корпусный менеджер Voyant Tools минимизирует риск возникновения ошибок, а Web scraper успешно справляется с парсингом RTL-текстов.

В 2024 году цифровое пространство все еще лучше адаптировано для LTR-мира. Это ставит вызов перед исследователями Востока, ведь зачастую нельзя взять для своего проекта уже готовый инструмент. Это в некоторой степени тормозит цифровизацию востоковедения, так как не все ученые имеют навыки и ресурсы (чаще всего времени), чтобы создавать новый или переделывать существующий инструментарий. Но это и вполне ожидаемо, ведь крайне сложно представить себе абсолютно универсальный инструмент, который удовлетворил бы потребности совершенно разных пользователей. Ничего удивительного в том, что ориентируются именно на интересы LTR-пользователей, нет. Их попросту намного больше. 

Что же делать?

Всем, кто работает с RTL-языками, стоит помнить, что многие инструменты могут давать другие результаты или работать иначе, потому что ошибки не всегда будут так заметны, как в текстовых редакторах и редакторах кода. 

Своей статьей Корнелис ван Лит хотел привлечь внимание широкого круга специалистов и пользователей к этой проблеме. Совместные усилия исследователей из различных сфер помогут быстрее создать цифровые решения или адаптировать уже существующие для изучения Востока методами DH.

Источник: van Lit, C. Writing from right-to-left in a left-to-right digital world. The Digital Orientalist  (2022). [Электронный ресурс] URL: https://digitalorientalist.com/2022/06/24/writing-from-right-to-left-in-a-left-to-right-digital-world/ (дата обращения: 30.01.2025).