Востоковедение

В рубрике Цифровое востоковедение мы рассказываем, как можно исследовать историю, литературу, культуру и религию стран Азии, Африки и Ближнего Востока цифровыми методами. Здесь можно найти ответы на следующие вопросы: как компьютер распознает комиксы манга, арабские или японские рукописи и ксилографы? о чем говорят заголовки северокорейской прессы? кого рекрутируют в Совет экспертов Ирана? что можно узнать из русско-китайского корпуса и японской библиографической базы данных? Мы также просим ученых поделиться своими исследованиями, делаем обзоры о работах российских и зарубежных коллег, берем интервью, пишем туториалы и вдохновляем читателей на новые темы.

Text mining японского текста: гайд по библиотеке fugashi

Мы уже рассказывали, как работать с японским языком с помощью сервиса Voyant Tools. Покажем, как можно самостоятельно провести токенизацию текстов на японском, применяя библиотеку fugashi, которая способна также провести морфологический анализ и выделять именованные сущности.

Как ChatGPT помогла получить литературную премию

В начале этого года в Японии выдали престижную литературную премию писательнице Риэ Кудан. Затем она призналась, что около 5% текста написаны ChatGPT. Случился скандал. Сможет ли ИИ заменить писателей? Как нейросети «проникают» в литературу? Читайте в новом материале «Системного Блока»‎.

Цифровая история Узбекистана и память о репрессиях: платформа Raqamli tarix

Узбекистан — солнечный, хлопковый, гостеприимный. Но в XX веке и тут проходили сталинские репрессии. Проект Raqamli tarix («Цифровая история») помогает сохранить память об этом периоде в истории страны. В одном месте собраны база данных о репрессированных, фотографии и видео, а также архивные материалы на трёх языках: узбекском, русском и английском.

Цифровые коллекции японского искусства

Как технологии открывают миру богатство культурного наследия? Японские гравюры, живопись и каллиграфию можно увидеть и изучать не только вживую, но и через интернет. Исследуем платформу Google Arts & Culture, цифровой ресурс Cultural Japan, базу данных японских гравюр на дереве Ukiyo-e Search и Центр исследования искусства Университета Рицумэйкан, которые позволяют соприкоснуться с оцифрованными произведениями японской культуры из любой точки мира.

KuroNet: как работает модель для распознавания старых японских иероглифов

Для распознавания старинных японских иероглифов применяется OCR под названием KuroNet. В основе KuroNet лежит специальная нейросетевая модель. Пошагово разберем что делать, когда нужно распознать рукописный текст на японском языке: от выбора текста до использования приложения miwo для смартфона.

Религии Африки через данные: во что и как верит самый религиозный континент Земли

Рассказываем, чем уникальны конфессии Африки — континента, где переход от этнических религий к христианству и исламу во многих сообществах произошёл всего за несколько десятилетий. Благодаря собранным датасетам изменения в вероисповеданиях можно отследить и измерить.

Из семинарии в Совет экспертов: кто и как попадает в иранскую коллегию выборщиков

В Иране есть избираемый орган, состоящий целиком из духовенства, — Совет экспертов. Что это за совет и как он устроен? Илья Васькин, старший преподаватель и младший научный сотрудник Центра изучения Ближнего Востока, Кавказа и Центральной Азии (CSMECCA) Института Классического Востока и Античности ФГН НИУ ВШЭ, проанализировал данные о членах Совета экспертов и обнаружил, какие изменения происходили в политизированной части иранского духовенства с 1983 года.

От корпусов до карты бомбардировок Хиросимы: Digital Humanities в Японии

Оцифровка данных о землетрясениях в Японии, эталонный корпус японского языка на DVD, интерактивная карта бомбардировки Хиросимы, изучение буддийских текстов. Посмотрим, чем сегодня занимаются цифровые гуманитарии в Японии и как они это делают.

Люди на ладони: биографическая база данных по истории Японии

Как соединить визуализацию и сведения об исторических личностях? Биографическая база данных Японии — пример такого проекта. Здесь можно найти родственные и иные связи, а также события и биографические факты о людях, оставивших след в японской истории.

Сталин, чучхе, Ким Ир Сен: о чём говорят заголовки северокорейской прессы

Северная Корея имеет совершенно заслуженную репутацию закрытого общества, труднодоступного не только для туристов, но и для специалистов. Один из немногих открытых источников, по которым исследователи могут судить о ситуации в стране, ― это пресса. Специалист по Северной Корее, ведущий научный сотрудник университета Кунмин (г. Сеул) Фёдор Тертицкий изучил заголовки главной партийной газеты КНДР и обнаружил, как в них отражались идеологические изменения и внешнеполитические приоритеты государства

Как научить компьютер распознавать арабские тексты 

Исследователи-филологи, занимающиеся древними текстами, давно используют компьютерную обработку текста. Но арабистика пока лишена многих цифровых инструментов текстового анализа. Рассказываем, почему многовековое литературное наследие арабо-мусульманского мира почти не затронуто компьютерными алгоритмами.

Русско-китайский корпус НКРЯ, или как превратить ботвинью в гаспачо

Параллельный корпус — это коллекция текстов, где для каждого текста хранятся его переводы на другой язык (или языки). Параллельные корпуса позволяют узнать, какие приемы и стратегии использовал переводчик для передачи слов, у которых нет эквивалентов в другом языке. В этой статье мы расскажем про русско-китайский параллельный корпус в составе Национального корпуса русского языка.

По дорогам Великого Шелкового пути: виртуальное путешествие по древним маршрутам 

В древности не было интернета, и люди обменивались информацией другими путями. Самая грандиозная дорога древности — Великий шелковый путь, соединяла Восток и Запад с помощью торговли и культурных связей. Благодаря японским исследователям по этим маршрутам теперь можно совершить виртуальное путешествие.

Как исследовать японские тексты с помощью Voyant Tools

Разбираемся, что такое Voyant Tools и как с его помощью можно проанализировать большой корпус текстов с YouTube на японском языке