Онлайн-словари японского языка
Все японские онлайн-словари можно условно разделить на переводные (японско-русские, японско-английские и др.) и толковые словари, к которым обращаются носители, а также те, кто владеет языком на продвинутом уровне. Существует даже словарь слов, используемых при императорском дворе! В статье вы также узнаете:
- как выглядели первые (еще до эпохи интернета) словари японского языка,
- где искать онлайн-словари японского языка,
- какие из них заслужили доверие у востоковедов-японистов,
- в чем заключаются основные сложности при составлении японских словарей.
Проверяем авторство: стилометрия для японских текстов
Метод стилометрии позволяет исследователям заглянуть в далекое прошлое: установить авторство, датировать текст и даже определить пол его автора. Так, с помощью него было поставлено под сомнение авторство повести 1688 года о жизни актера театра кабуки. О том, удалось ли доказать это и к какому выводу пришла исследовательница, — в нашей статье. Мы также рассказали:
- как работает стилометрия,
- как возможно адаптировать метод под восточные языки,
- каким образом происходит работа над анализом художественного произведения.
Text-mining японского текста: гайд по библиотеке fugashi
Многие задачи по автоматической обработке текста начинаются с токенизации — деления текста на отдельные слова. Но как быть с японским языком, где между словами отсутствуют пробелы? Для этого на помощь исследователям приходит библиотека figashi. В нашем гайде вы узнаете:
- как провести токенизацию текстов на японском языке,
- как пользоваться библиотекой,
- как с ее помощью провести морфологический анализ текста.
KuroNet: как работает модель для распознавания старых японских иероглифов
Классический японский язык, на котором написаны многие исторические источники VIII–XIX веков, сильно отличается от современного. Но часто перед исследователями встает задача распознать именно рукописный текст. В статье мы подробно рассказываем о том:
- как работает технология оптического распознавания символов,
- как обучена модель KuroNet,
- что делать, если текст для распознавания не оцифрован. (Обрадуем: и для этого есть решение!)
Как исследовать японские тексты с помощью Voyant Tools
Современные технологии шагнули так далеко, что проанализировать возможно не только оцифрованные, но даже рукописные иероглифические тексты. В статье мы рассказываем о сервисе Voyant Tools, который можно использовать… даже для анализа комментариев на YouTube! Прочитайте статью, если вам интересно:
- по какому принципу отбирались комментарии,
- как корректно очистить полученные данные для дальнейшего анализа,
- что такое «список стоп-слов» и почему его необходимо использовать.