Востоковедение

Почему современные технологии не понимают африканские манускрипты?

В массовой культуре африканские манускрипты иногда воспринимаются как некие мистические артефакты и вообще экзотизируются. На самом деле за африканскими языками стоит своя лингвистическая система, а в случае с письменными языками — часто еще и сложная система графики. Рассказываем, почему ИИ распознает текст, но не всегда справляется с полноценным анализом африканских манускриптов

Африканские языки и ИИ

Язык неотделим от контекста. Смысл формируется в процессе взаимодействия, а не просто кодируется в словах. Модели же обучаются на текстовых данных, которые лишены специфического контекста, тона и социальных сигналов. В итоге алгоритм, даже если он распознает символы, совершенно не считывает контекстуальные стороны, такие как намерение автора. 

Так, профессор Мфо Примус, исследовательница из Университета Йоханнесбурга, обращается к концепции Ubuntu — африканской этической системе, где личность и смысл определяются через отношения с другими — и связывает ее с лингвистикой. Смысл слов не заложен в них заранее, а формируется контекстом (эта идея важна и для современного NLP). Его основой становится не сухое содержание, а человеческое взаимодействие.

Для африканских языков — таких как волоф или мандинка — стандартный подход нейросетей фатален. Большинство моделей обучались на унифицированных текстах из Википедии или официальных документов. Когда такой алгоритм сталкивается с рукописью Сахеля, он совершает то, что лингвисты называют «цифровым колониализмом»: навязывает латинскую или стандартную арабскую логику структуре, которая построена на иных принципах.

Распространение языка волоф и языков манден. Источник: Wikipedia

Еще один показательный пример — языки группы банту. Здесь существуют межъязыковые омонимы — слова, которые пишутся идентично, но имеют разные значения в зависимости от региона. Например, одна и та же лексема в одном языке может означать «я устал», а в другом — «я проголодался».

Для человека, включенного в контекст, путаницы не возникает: он понимает, на какой территории и в каком социальном кругу идет общение. Но для ИИ это — неразрешимая задача. Проблема в разрыве между статистикой и смыслом. Большинство NLP-моделей (алгоритмов для обработки естественного языка) воспринимают слово не как образ, а как набор символов. 

Несмотря на способность современных алгоритмов учитывать контекст соседних слов, они все же остаются линейными. ИИ анализирует текст как последовательность, в то время как в африканской лингвистической традиции смысл часто реляционен (зависит от взаимного расположения элементов). Он заложен не в сумме отдельных единиц, а в сложных отношениях между ними, в их расположении на странице и в социальном контексте, который невозможно оцифровать простым парсингом текста.

Проблема возникает в том числе из-за дефицита качественных размеченных данных. Как верно подмечают эксперты, если собрать достаточно большой массив золотого стандарта данных для африканских манускриптов, нейросеть научится их распознавать. Но пока таких данных нет, алгоритмы остаются ограниченными.

Особенно наглядно этот барьер проявляется в работе с африканскими манускриптами на аджами — письменности, где на одной странице соседствуют канонические религиозные тексты и местные практики.

Аджами: лингвистическая трансформация Западной Африки

Последние отчеты об уровне грамотности в мире отмечают страны Сахеля (переходная полоса на южной границе Сахары) как зоны с критически низкими показателями. Тем не менее за низким владением латиницей скрывается огромное количество данных, которые написаны на аджами — письменности некоторых неарабских народов на основе арабского алфавита. А также верность другой, более древней и массовой системе сохранения данных, которая часто не учитывается. 

Карта уровня грамотности стран Африки (зоны с низким уровнем выделены темно-красным). Источник: statbase

По данным исследователей, аджами являлся самой массовой системой письма в доколониальной Африке, охватывая десятки языков. Он представлял собой не просто адаптацию арабского алфавита, а полноценную самостоятельную систему. Среди манускриптов на аджами встречаются исторические трактаты, поэзия, аннотации арабских текстов, описания ритуалов и эзотерических практик.

Один из самых ярких примеров — наследие шейха Амаду Бамбы, основателя сенегальского суфийского ордена Муридия. Его сочинения, в том числе знаменитые касыды (Khassayids) — религиозные поэмы, — способны, по верованиям общины, вводить слушателей в особое мистическое состояние daanu leer («упасть в озарении»). Именно вокруг муридов — последователей ордена, переписывавших и распространявших касыды на волоф-аджами, — сложилась самая массовая традиция региона. 

Когда ислам начал активно распространяться в Западной Африке (примерно с XI века), местные народы — волоф, мандинка, хауса и другие, населяющие земли от атлантического побережья Сенегала до севера Нигерии — не просто приняли новую веру, а адаптировали арабскую письменность под свои нужды. Это стало настоящей лингвистической трансформацией: они добавляли новые диакритические знаки (точки и линии), чтобы передать звуки, которых нет в арабском языке. Эта работа над письменностью продолжается до сих пор: как рассказывал «Системный Блокъ» ранее, расширенный набор арабских графем уже включен в Юникод, для аджами существуют раскладки клавиатуры и шрифты. Параллельно с этим открывается другой пласт работы — оцифровка рукописного наследия, и именно с ней ИИ пока справляется хуже всего.

Аджами является отражением сложнейшего религиозного синкретизма — процесса слияния разнородных культурных и религиозных пластов. Исследователь Дмитрий Бондарев выделяет несколько типов таких рукописей. Самый сложный из них — эзотерические тексты. В них арабский язык является сакральным и используется для молитв, тексты которых нельзя изменять. Аджами же становится инструкцией к этим текстам на местном языке. 

Помимо букв, манускрипты часто содержат таблицы хатими — магические квадраты и геометрические таблицы, которые выступают как графическая визуализация данных. В основе хатими лежит система абджадия — древний метод, в котором каждой букве арабского алфавита соответствует определенное числовое значение. Когда автор манускрипта вписывает слово в ячейку таблицы, он оперирует не только его смыслом, но и числовым эквивалентом. Так образуется «магический квадрат»: сумма числовых значений букв в строках, столбцах и по диагоналям должна быть идентичной. 

Страница манускрипта с таблицами хатими. Источник: Kandoolu Kitaaboolu: Collection of Bilingual Texts

Возьмем, например, страницу из манускрипта мандинка-аджами. Рядом с каждым квадратом выписано начало коранской суры «Аш-Шарх» («Раскрытие»). Верхний квадрат — ее буквенная проекция: ключевые буквы суры разложены по ячейкам. Нижний квадрат содержит уже сами числа, которые заменяют буквы. По краям обоих квадратов повторяется имя ангела Джибрила, которое «активирует» квадраты. Внизу страницы — инструкция к использованию хатими: нужно смыть квадрат водой, и воспользоваться ей как носителем силы написанного.

Ранние манускрипты из империи Борну, которые датируются XVII веком, показывают, что аджами часто служил своеобразным глоссарием — пояснением к сложному арабскому тексту. Это подтверждает гипотезу о разделении функций между письменностями: арабский текст в манускриптах работает как неизменяемая основа, а записи на аджами и таблицы хатими — как механизм ее интерпретации под локальные нужды. 

В одной и той же рукописи канонические исламские тексты соседствуют с местными магическими практиками. Это создает структуру документов, которая ломает логику нейросетей, из-за чего целый пласт африканской истории остается скрытым. 

Когда нейросеть сталкивается с «магией»

Проблема провала нейросетей с аджами — это не просто технический сбой, а признак культурно-смыслового барьера в современных технологиях, фундаментального различия в том, как разные культуры создают, хранят и понимают знание. Профессор Мфо Примус указывает на главную ошибку технического сектора: попытку превратить живой язык в четкую статистику.

Исследование рукописей народов волоф (Сенегал) с помощью технологий Digital Humanities помогает выявить фундаментальный конфликт между западными стандартами данных и африканской традицией письма. 

Так, в этом исследовании использовали Transkribus (одну из самых мощных нейросетевых платформ для распознания рукописей), что позволило наглядно увидеть, где проходит граница понимания между современным ИИ и древним синкретизмом. 

С одной стороны, анализ макета работает безупречно до тех пор, пока нейросеть имеет дело с организованным линейным письмом. В случаях с классическими религиозными текстами алгоритм легко распознает структуру и прокладывает базовые линии, несмотря на синие пятна от влаги и ветхость бумаги. С другой стороны, на страницах с магическими таблицами — хатими — система сталкивается с неразрешимой задачей. 

Для нейросети, обученной на последовательных массивах данных, сакральная графика, где буквы превращаются в цифры и вписываются в сложные геометрические фигуры, — это неинформативный шум. Для верующего же хатими — это точка соприкосновения исламской нумерологии и доисламских традиций защиты от духов. 

Страница манускрипта на аджами. Источник: Collection of Bilingual Texts III

Этот технологический сбой подтверждает: синкретические рукописи аджами — это не книги в привычном смысле, а нелинейные базы данных. Традиционный ИИ ищет одномерную строку, но мы имеем дело с многомерными данными, где структура страницы важна так же, как и ее содержание. Там, где современный алгоритм видит ошибку разметки, на самом деле скрывается иная логика организации информации.

Проблема автоматического распознавания (Optical Character Recognition, Handwritten Text Recognition) в данном случае заключалась в том, что рукопись является гетерогенной. Это значит, что на одной странице сосуществуют две принципиально разные системы передачи информации. Алгоритмы обучены на дисциплинированных и линейных текстах. А живой, смешанный «интерфейс» аджами, где буквы служат не только для чтения, но и для ритуала, выпадает из поля зрения современных моделей.

Чтобы научить ИИ распознавать магию, был создан золотой стандарт данных путем ручной разметки структуры поверх скана. Таблицы были выделены как информационные объекты, а отмеченные ключевые числа (например, 14 и 18) оказались постоянными в структуре хатими.

Страница манускрипта на аджами. Источник: Collection of Bilingual Texts III

Это доказывает: полноценная оцифровка наследия аджами требует перехода от простого распознавания букв к комплексному анализу визуальных интерфейсов.

Дело не только в разметке страницы, но и в логике языка. Так, когда нейросеть видит символ в таблице хатими, она пытается найти ему соответствие в стандартном арабском словаре. Но этот символ может иметь совершенно иное, реляционное значение, понятное только в рамках конкретной традиции Сахеля.

Масштаб проблемы подтверждают и другие свежие исследования: современные нейросети, обученные на арабских и персидских текстах, при столкновении с аджами выдают от 65% до 84% ошибок.

Почему это важно для Digital Humanities?

Проблема оцифровки наследия аджами — это не только технический, но и философский вопрос. Провал нейросетей перед хатими служит свидетельством многомерности африканской мысли. 

Нам часто навязывают стандарт: чтобы использовать функции ИИ в полной мере, нужно быть технологически компетентным и знать, например, английский. Если технология не говорит на языке пользователя и не понимает его системы письма, она не сокращает разрыв, а катастрофически увеличивает его. Манускрипты Сахеля показывают этот барьер на практике.

Как решить эту проблему?

Если мы хотим создать этичный ИИ для Африки, он должен строиться на принципе реляционности. Знание не должно быть изолировано в нейросети. Оно должно отражать живую структуру языка и общества: то, как люди на самом деле мыслят, рассуждают, общаются и взаимодействуют. 

Чтобы понять аджами в частности, нам нужно видеть в этих текстах сложнейшие данные, которые имеют право на место в цифровом пространстве без искажений и упрощений.

Для достижения этих целей исследователи манускриптов уже работают совместно с программистами и носителями языка. Например, был создан проект NEH Ajami, который изучает литературу на аджами, а после делает доступными в печатном и онлайн-формате избранные рукописи, их переводы и транскрипции. Такие проекты показывают, что путь к оцифровке наследия аджами уже намечен.

Работа проекта NEH Ajami. Источник: NEH Ajami

Что дальше?

История с аджами показывает, что проблема не в манускриптах, а в том, через какую призму мы на них смотрим. Африканская традиция письма веками работала со сложными многомерными данными. С аджами связано сразу несколько больших тем, к которым мы еще вернемся: цифровой колониализм, выходящий далеко за пределы Сахеля; женщины-авторы, чьи имена редко упоминаются; африканская концепция Ubuntu, где смысл рождается во взаимодействии между людьми и которая близка к тому, каким мог бы быть по-настоящему этичный искусственный интеллект.

И начать стоит с готовности увидеть аджами таким, какой он есть. Тогда «магия» Африки станет не просто загадкой, а частью общей истории письменности.

Источник: Yousuf O., Aminu A., Muhammad  M. S. et al. (2026). A Handwritten Text Recognition Dataset for Ajami Manuscripts in Fulfulde and Hausa // Yin X. C., Karatzas D., Lopresti D. (eds.). Document Analysis and Recognition. ICDAR 2025. ICDAR 2025. Lecture Notes in Computer Science. Vol. 16026. Part IV. Cham: Springer. DOI: 10.1007/978-3-032-04627-7_36.

Share

Recent Posts

Власти США заставили Anthropic закрыть Fable и Mythos

Сильнейшие модели Claude были доступны всего три дня

15.06.2026

Обратная сторона навигаторов: куда нас ведут электронные карты и что с этим бывает не так

«Лучше пешком», — говорим мы себе летом и выбираем прогулки непривычными маршрутами. А если путь не знаком — поможет приложение-навигатор.…

10.06.2026

ИИ-компании готовятся к IPO, новые модели от Google и Microsoft

SpaceX, Anthropic и OpenAI готовятся стать публичными компаниями, Google и Microsoft выпустили новые модели — рассказываем, что произошло в мире…

09.06.2026