Проблема сохранения айнского языка
В Японии живет больше 120 млн человек, и примерно 98% из них [1] —– этнические японцы. В стране существуют крупные диаспоры народов-соседей и сравнительно новые сообщества мигрантов, однако есть и народы, живущие на архипелаге на протяжении тысячелетий. К ним относятся айну и рюкюсцы. Если рюкюские языки генетически близки японскому, то айнский язык занимает совершенно особое положение: это языковой изолят, не имеющий доказанных родственных связей ни с одним другим языком мира.
Сохранить айнский язык как средство живого общения уже практически невозможно: для всех носителей языком повседневного общения стал японский, язык не используется в реальной жизни и не передается детям.
Из-за крайне малого числа людей, способных поддержать даже базовый диалог, получать новые языковые данные на айнском сегодня почти невозможно. При этом доступ к уже существующим материалам часто затруднен. Особую сложность представляют аудиозаписи: многие из них не расшифрованы, хранятся в устаревших форматах и недоступны для анализа. Поэтому на первый план встает другая, не менее важная задача — сохранить возможность его изучения. Для этого требуется не столько архивировать материалы, сколько создавать специальные инструменты, которые позволят будущим исследователям работать с языком так, как если бы он все еще существовал в живой среде.
История сохранения айнского языка
По меркам исчезающих языков айнский язык неплохо задокументирован, но сделано это неоднородно и фрагментарно.
Самые ранние записи с элементами айнского языка относятся к XVII веку. В них встречаются отдельные слова, фразы и краткие описания, зафиксированные японскими авторами. Томоми Сато в статье Major old documents of Ainu and some problems in the historical study of Ainu из коллективной монографии Handbook of the Ainu Language [2] показывает, как эти источники позволяют проследить изменения языка во времени и увидеть диалектное разнообразие, которое сегодня практически исчезло. Среди записей того периода встречается даже фрагмент героического эпоса айну, записанный с помощью японской азбуки (рис. 1).

К концу XIX — началу XX века, на фоне открытия Японии для Запада, интерес к айнскому языку возрос. Европейские и американские исследователи начали систематически изучать культуру и язык айну. Альфред Ф. Маевиц в Handbook of the Ainu Language предлагает условную классификацию этих работ [4]. Среди них можно выделить историко-лингвистические исследования, словари и глоссарии, описания фонетики и грамматики, тексты фольклора с переводами, записи топонимов, а также звуковые материалы. Особое место занимают аудиозаписи Бронислава Пилсудского, сделанные на фонограф Эдисона: это одни из самых ранних в мире полевых звукозаписей исчезающего языка.
Сложности в работе с материалами
На первый взгляд, документации айнского много. Однако с ней не все хорошо. Во-первых, проблема носителей данных. Значительная часть материалов до сих пор не оцифрована. Те же записи Пилсудского хранятся на восковых цилиндрах, физически хрупких и труднодоступных носителях, с которыми могут работать лишь специалисты.
Во-вторых, языковой барьер. Большинство исследований по айнскому языку существует внутри японоязычной академической традиции. Для исследователей, не владеющих японским, это создает дополнительное препятствие. Работы западных авторов, в свою очередь, написаны на ограниченном наборе европейских языков и нередко остаются непереведенными, что также затрудняет комплексный обзор.
Отдельного внимания заслуживают архивы аудиозаписей айнской речи, с которыми работает Кавахару Тацуя. С 1970-х годов в Японии было записано более 700 часов айнского устного народного творчества — прежде всего эпических песен юкар и сказок уэпэкэр. Однако до наших дней в состоянии, пригодном для систематического анализа, сохранилось лишь около 40 часов речи. Остальные записи либо утрачены, либо существуют в форматах, требующих сложной реставрации.
Проблема заключается не только в сохранности записей, но и в их доступности для исследования. Расшифровка и проверка транскрипций таких аудиоматериалов требуют высокой квалификации, и сегодня лишь несколько специалистов способны выполнять эту работу корректно. В результате значительная часть аудиоархивов остается фактически «немой»: формально записи существуют, но без текстового сопровождения и временной разметки они почти не используются в лингвистических исследованиях.
Цифровой корпус айнского языка
Одним из главных проектов по сохранению айнского языка является Цифровой корпус айнского языка, разработанный Каролом Новаковским [5]. В корпусной лингвистике обычно применяется жесткий отбор материалов: тексты должны быть однородными, хорошо размеченными и сопоставимыми. Но для айнского такой подход оказывается непозволительной роскошью. Данных слишком мало, а их значительная часть существует в разрозненном и не идеальном виде. Поэтому ключевой принцип этого проекта — максимальное использование: в корпус включаются практически все доступные материалы, независимо от жанра, времени записи и степени обработки.
На сегодняшний день в корпус уже включили немало источников. Среди них:
- Айну синъё:сю — собрание из тринадцати эпических произведений, записанных Тири Юкиэ (кстати, вышли на русском языке несколько лет назад с комментариями Тюрленевой [6]);
- онлайн-проект A Talking Dictionary of Ainu [7], объединяющий два корпуса аудиозаписей диалекта региона Сару и содержащий почти четыре тысячи лексических единиц с переводами и морфологическими комментариями;
- глоссированный аудиокорпус айнского фольклора [8], включающий десять историй с параллельными переводами на японский и английский языки.
В корпус также входят специализированные ресурсы:
- словарь айнских имен собственных [9], представляющий собой базу данных более чем трех тысяч топонимов с морфемным анализом и переводами;
- словарь диалекта Мукава [10], основанный на примерно 150 часах записей разговорной речи двух носителей;
- коллекция айнской устной литературы [11], включающая почти сотню транскрибированных аудиозаписей фольклора разных жанров;
- материалы онлайн-архива айнского языка [12], созданные на основе аудио- и видеозаписей нескольких носителей.
Все включенные материалы транскрибированы латиницей. Для значительной их части представлены параллельные переводы на японский язык, а для онлайн-словаря и глоссированного аудиокорпуса — также на английский. В перспективе перевод на английский планируется расширить и на другие разделы корпуса, включая Айну синъё:сю.
Проект продолжает активно развиваться. В будущем в корпус планируется включить материалы из Ainu Language Material Release Project [13], учебные пособия по айнскому языку, изданные Foundation for Research and Promotion of Ainu Culture [14], охватывающие восемь диалектов, материалы радио-курса айнского языка [15], выходившего в Саппоро с конца 1990-х годов, а также перевод Нового Завета на айнский язык, выполненный Джоном Батчелором в конце XIX века.
Кроме того, предполагается самостоятельная оцифровка и интеграция ряда важных, но пока труднодоступных источников. Среди них: Ку сукупу оруспэ — сборник дневников носителя диалекта Исикари, написанных на айнском и японском языках, а также Акор итак — первый опубликованный учебник айнского языка, изданный Ассоциацией айнов Хоккайдо в 1994 году.
Автоматический перевод и проблема токенизации
Еще одна важная задача в сохранении айнского языка и расширении доступа к нему — автоматический перевод. Однако приступить к нему можно лишь после решения более базовой проблемы: научиться корректно разделять айнский текст на части. В большинстве записей на айнском языке слова не разделяются пробелами, а сами тексты часто зафиксированы по ритму устного исполнения, а не по лингвистическим правилам. В результате даже специалистам бывает сложно определить, где заканчивается одно слово и начинается другое.
Для решения этой задачи Ёсио Момоути и Михал Пташинский разработали первый специализированный инструмент автоматической обработки айнского текста — POST-AL (Part-of-Speech Tagger for the Ainu Language) [16]. Его основная цель — разделять сплошной текст на отдельные элементы и определять их грамматические функции. Система состоит из двух ключевых компонентов: механизма токенизации, который автоматически разбивает текст на минимальные смысловые единицы, и модуля морфологической разметки, определяющего часть речи каждого элемента. Это особенно важно для полисинтетического языка, где в одном слове может скрываться сложная грамматическая структура.
Помимо разметки, POST-AL предлагает вспомогательный переводческий функционал (рис. 2). Инструмент не является полноценным машинным переводчиком в привычном смысле, но он автоматически подбирает переводы отдельных элементов текста на японский язык с учетом контекста. Такой подход значительно упрощает работу исследователей и переводчиков: вместо ручного поиска каждого слова в словаре они получают предварительно размеченный и частично интерпретированный текст. В перспективе подобные инструменты могут стать основой для более сложных систем машинного перевода. Они также делают возможной масштабную работу с корпусами айнских текстов, которая ранее выполнялась почти исключительно вручную.

О машинном переводе айнского языка
В последние годы исследования в этой области шагнули дальше, в сторону нейросетевого машинного перевода. В работе Рё Игараси и Со Миягава [17] показано, что для айнского языка важно учитывать не только сами слова, но и контекст их использования. Ранние модели обучались в основном на фольклорных текстах из ограниченного числа регионов, из-за чего они плохо справлялись с переводом повседневной речи. Авторы расширили корпус, добавили учебные материалы и разговорные тексты, а также научили модель различать, используется язык в эпическом повествовании или в обычном разговоре.
Следующая задача еще более амбициозна — научить компьютер говорить на айнском языке. Этой проблемой занимается исследовательская группа профессора Кавахару Тацуя, которая разрабатывает модель синтеза айнской речи на основе нейронных сетей.
Системы синтеза речи для распространенных языков давно вошли в повседневную жизнь, однако для айнского языка их разработка долгое время считалась практически невозможной. Для обучения подобных моделей обычно требуется огромное количество записей, чем не может похвастаться айнский. Тем не менее исследователям удалось обучить нейросетевую модель, использовав ограниченный массив данных из более 30 часов записей речи носителей.
Результаты оказались неожиданно убедительными. В демонстрациях синтезированная айнская речь практически неотличима от живой: сохраняются интонация, ритм и характерное звучание языка. Синтезированная речь может использоваться для обучения произношению, создания учебных материалов и цифровых архивов.
Цифровое будущее айнского языка
Айнский язык — пример того, как XXI век может стать временем «перехода» малых языков в новые формы существования. Ранее машина никогда не была единственным носителем языка, но сегодня такой путь кажется эффективным способом сохранения культурного наследия. При дальнейшем развитии цифровых инструментов и сохранении доступных языковых материалов айнский язык, возможно, не окажется для будущих поколений такой же загадкой прошлого, как шумерский.
Источники
- Демографическая статистика Японии. URL: https://www.indexmundi.com/japan/demographics_profile.html?utm_source (дата обращения: 26.01.2026).
- Satō T. Major old documents of Ainu and some problems in the historical study of Ainu // Bugaeva A. (ed.). Handbook of the Ainu Language. Boston: De Gruyter Mouton, 2014. P. 79–99.
- Satō T. Major old documents of Ainu and some problems in the historical study of Ainu // Bugaeva A. (ed.). Handbook of the Ainu Language. Boston: De Gruyter Mouton, 2014. P. 90.
- Majewicz A. F. Ainu language Western records // Handbook of the Ainu Language. Boston: De Gruyter Mouton, 2014. P. 100–147.
- Karol P. Nowakowski. Development of a Digital Corpus and Core Language Technologies for the Ainu Language. Doctoral thesis. Kitami: Kitami Institute of Technology, 2020. 165 p. DOI: 10.19000/00008893. URL: https://kitami-it.repo.nii.ac.jp/records/8930 (дата обращения: 21.01.2026).
- Песни богов народа айну, записанные Тири Юкиэ / пер. с яп. Е. Тюрленевой. СПб.: Издательский Дом «Гиперион», 2022. 208 с.
- Онлайн-проект A Talking Dictionary of Ainu. URL: https://www.elararchive.org/uncategorized/SO_3d2a33cb-631e-4f32-b530-a89adcda942b/ (дата обращения: 21.01.2026).
- Аудиокорпус айнского фольклора. URL: https://ainu.ninjal.ac.jp/folklore/corpus/en/ (дата обращения: 21.01.2026).
- Словарь айнских имен собственных. URL: https://hokuga.hgu.jp/dspace/handle/123456789/1661 (дата обращения: 21.01.2026).
- Hattori S. Ainugo hōgen jiten : An Ainu dialect dictionary: with Ainu, Japanese and English indexes. Tōkyō: Iwanami Shoten, 1964. 556 p.
- Коллекция айнской устной литературы. URL: https://nibutani-ainu-museum.com/culture/language/story/ (дата обращения: 21.01.2026).
- Онлайн-архив айнского языка. URL: https://ainugo.nam.go.jp (дата обращения: 21.01.2026).
- Ainu Language Material Release Project. URL: https://ainugo.aa-ken.jp (дата обращения: 21.01.2026).
- Foundation for Research and Promotion of Ainu Culture. URL: https://www.ff-ainu.or.jp/index.html (дата обращения: 21.01.2026).
- Радио-курс айнского языка. URL: https://www.stv.jp/radio/ainugo/index.html (дата обращения: 21.01.2026).
- Ptaszynski M., Momouchi Y. Part-of-speech tagger for Ainu language based on higher order Hidden Markov Model // Expert Systems with Applications. 2012. Vol. 39. N. 14. P. 11576–11582. DOI: 10.1016/j.eswa.2012.04.031. URL: https://www.sciencedirect.com/science/article/abs/pii/S0957417412006288 (дата обращения: 22.01.2026).
- Igarashi R., Miyagawa S. Enhancing Neural Machine Translation for Ainu-Japanese: A comprehensive study on the impact of domain and dialect integration // Proceedings of the 4th International Conference on Natural Language Processing for Digital Humanities. Miami: Association for Computational Linguistics, 2024. P. 413–422. DOI: 10.18653/v1/2024.nlp4dh-1.40. URL: https://aclanthology.org/2024.nlp4dh-1.40/ (дата обращения: 22.01.2026).
- Ishikawa T. AI and the Ainu language . YouTube. URL: https://www.youtube.com/watch?v=Ockx4v452Ds&t=2352s (дата обращения: 22.01.2026).