японский язык

Цифровая библиотека японской литературы Aozora Bunko

Aozora Bunko — это цифровая библиотека, где собраны произведения японской классической литературы, которые находятся в открытом доступе. «Системный Блокъ» рассказывает, как устроена библиотека, какие правовые нормы приняты в Японии и о том, как автоматически собрать свой корпус из материалов «Аодзора-бунко».

Онлайн-словари японского языка

Где искать в интернете японские словари? Какие из них вызывают доверие у востоковедов-японистов? «Системный Блокъ» рассказывает об онлайн-словарях японского языка и их особенностях. Три системы письменности, развитая лексическая многозначность, непростая история японского языка и культуры — все это определяет, как выглядят словари в цифровую эпоху

Какие темы интересуют современных востоковедов и как им помогают в исследованиях цифровые технологии?

Что узнали учёные, исследующие религиозность африканцев? Какие инструменты помогают анализировать древние рукописные иероглифы и токенизировать азиатские тексты? И что творят с цифровыми технологиями японцы? Читайте в нашей востоковедческой подборке статей от «Системного Блока».

Проверяем авторство: стилометрия для японских текстов

Стилометрия — это количественный метод в лингвистике, литературоведении и других гуманитарных науках, который определяет авторский стиль с помощью статистических метрик. Метод применяется для того, чтобы установить авторство спорного текста, датировать текст (такие исследования называются стилохронометрией) или определить другие метаданные, такие как жанр текста или пол автора. На примере работы японской исследовательницы Уэсака Аяка мы расскажем о том, как с помощью стилометрии было поставлено под сомнение авторство повести, приписываемой знаменитому поэту и прозаику XVII века Ихара Сайкаку.

Text-mining японского текста: гайд по библиотеке fugashi

Мы уже рассказывали, как работать с японским языком с помощью сервиса Voyant Tools. Покажем, как можно самостоятельно провести токенизацию текстов на японском, применяя библиотеку fugashi, которая способна также провести морфологический анализ и выделять именованные сущности.

KuroNet: как работает модель для распознавания старых японских иероглифов

Для распознавания старинных японских иероглифов применяется OCR под названием KuroNet. В основе KuroNet лежит специальная нейросетевая модель. Пошагово разберем что делать, когда нужно распознать рукописный текст на японском языке: от выбора текста до использования приложения miwo для смартфона.

Как исследовать японские тексты с помощью Voyant Tools

Разбираемся, что такое Voyant Tools и как с его помощью можно проанализировать большой корпус текстов с YouTube на японском языке