лемматизация

Какие темы интересуют современных востоковедов и как им помогают в исследованиях цифровые технологии?

Что узнали учёные, исследующие религиозность африканцев? Какие инструменты помогают анализировать древние рукописные иероглифы и токенизировать азиатские тексты? И что творят с цифровыми технологиями японцы? Читайте в нашей востоковедческой подборке статей от «Системного Блока».

Text-mining японского текста: гайд по библиотеке fugashi

Мы уже рассказывали, как работать с японским языком с помощью сервиса Voyant Tools. Покажем, как можно самостоятельно провести токенизацию текстов на японском, применяя библиотеку fugashi, которая способна также провести морфологический анализ и выделять именованные сущности.

Что такое лемматизация?

Как компьютеры понимают, что зло, зла и (из двух) зол — формы одного и того же слова? Рассказываем про лемматизацию — один из основных методов предобработки текстов, который помогает компьютеру лучше их понимать.