Обзоры

Цифровые инструменты для японского языка: от словарей и распознавания до стилометрии

В новой подборке мы рассказываем об инструментах, которые используют востоковеды для изучения японского языка и цифровых исследований японских текстов: от онлайн-словарей до продвинутых методов стилометрии.

Онлайн-словари японского языка

Все японские онлайн-словари можно условно разделить на переводные (японско-русские, японско-английские и др.) и толковые словари, к которым обращаются носители, а также те, кто владеет языком на продвинутом уровне. Существует даже словарь слов, используемых при императорском дворе! В статье вы также узнаете

  • как выглядели первые (еще до эпохи интернета) словари японского языка,
  • где искать онлайн-словари японского языка,
  • какие из них заслужили доверие у востоковедов-японистов,
  • в чем заключаются основные сложности при составлении японских словарей.

Проверяем авторство: стилометрия для японских текстов

Метод стилометрии позволяет исследователям заглянуть в далекое прошлое: установить авторство, датировать текст и даже определить пол его автора. Так, с помощью него было поставлено под сомнение авторство повести 1688 года о жизни актера театра кабуки. О том, удалось ли доказать это и к какому выводу пришла исследовательница, — в нашей статье. Мы также рассказали:

  • как работает стилометрия,
  • как возможно адаптировать метод под восточные языки,
  • каким образом происходит работа над анализом художественного произведения.

Text-mining японского текста: гайд по библиотеке fugashi

Многие задачи по автоматической обработке текста начинаются с токенизации — деления текста на отдельные слова. Но как быть с японским языком, где между словами отсутствуют пробелы? Для этого на помощь исследователям приходит библиотека figashi. В нашем гайде вы узнаете:

  • как провести токенизацию текстов на японском языке,
  • как пользоваться библиотекой,
  • как с ее помощью провести морфологический анализ текста.

KuroNet: как работает модель для распознавания старых японских иероглифов

Классический японский язык, на котором написаны многие исторические источники VIII–XIX веков, сильно отличается от современного. Но часто перед исследователями встает задача распознать именно рукописный текст. В статье мы подробно рассказываем о том:

  • как работает технология оптического распознавания символов,
  • как обучена модель KuroNet,
  • что делать, если текст для распознавания не оцифрован. (Обрадуем: и для этого есть решение!)

Как исследовать японские тексты с помощью Voyant Tools

Современные технологии шагнули так далеко, что проанализировать возможно не только оцифрованные, но даже рукописные иероглифические тексты. В статье мы рассказываем о сервисе Voyant Tools, который можно использовать… даже для анализа комментариев на YouTube! Прочитайте статью, если вам интересно:

  • по какому принципу отбирались комментарии,
  • как корректно очистить полученные данные для дальнейшего анализа,
  • что такое «список стоп-слов» и почему его необходимо использовать.
Share

Recent Posts

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время

25.05.2026

ИИ найдет «скрытых» детей в соцсетях по костям лица

Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст

19.05.2026

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…

19.05.2026