Фото автора

Ирина Мусаева

Автор

Автор статей

Проверяем авторство: стилометрия для японских текстов

Стилометрия — это количественный метод в лингвистике, литературоведении и других гуманитарных науках, который определяет авторский стиль с помощью статистических метрик. Метод применяется для того, чтобы установить авторство спорного текста, датировать текст (такие исследования называются стилохронометрией) или определить другие метаданные, такие как жанр текста или пол автора. На примере работы японской исследовательницы Уэсака Аяка мы расскажем о том, как с помощью стилометрии было поставлено под сомнение авторство повести, приписываемой знаменитому поэту и прозаику XVII века Ихара Сайкаку.

Text-mining японского текста: гайд по библиотеке fugashi

Мы уже рассказывали, как работать с японским языком с помощью сервиса Voyant Tools. Покажем, как можно самостоятельно провести токенизацию текстов на японском, применяя библиотеку fugashi, которая способна также провести морфологический анализ и выделять именованные сущности.

KuroNet: как работает модель для распознавания старых японских иероглифов

Для распознавания старинных японских иероглифов применяется OCR под названием KuroNet. В основе KuroNet лежит специальная нейросетевая модель. Пошагово разберем что делать, когда нужно распознать рукописный текст на японском языке: от выбора текста до использования приложения miwo для смартфона.