морфологический анализ

Text-mining корейского языка: гайд по библиотеке koNLPy

Как автоматически провести токенизацию и морфологический анализ текстов на корейском языке? Рассказываем про библиотеку koNLPy, которая выделяет токены, определяет морфемы и части речи. А также приводим таблицу, которая показывает, как различные методы этой библиотеки справляются с корейскими смайликами, глаголами вежливости и уважительными суффиксами (не всё так просто!).

Что такое лемматизация?

Как компьютеры понимают, что зло, зла и (из двух) зол — формы одного и того же слова? Рассказываем про лемматизацию — один из основных методов предобработки текстов, который помогает компьютеру лучше их понимать.

Что такое морфологический анализ

Слово «морфологический» может быть знакомо вам с уроков русского языка в школе — иногда там дают задания на морфологический разбор слов. В них нужно выписать слово и его часть речи, а также различные грамматические характеристики: род, число, падеж у существительного, спряжение, вид, время у глагола, разряд у местоимения. Такой разбор является одним из этапов компьютерной обработки текста, и современные методы позволяют делать его автоматически.