морфология

Text-mining китайского языка: гайд по библиотеке Jieba

Китайский язык может быть очень сложно токенизировать, чтобы извлечь информацию из большого объёма текста: стандартные инструменты путаются в иероглифах. Рассказываем, как пользоваться библиотекой Jieba, которая помогает решить эту проблему.

Text-mining корейского языка: гайд по библиотеке koNLPy

Как автоматически провести токенизацию и морфологический анализ текстов на корейском языке? Рассказываем про библиотеку koNLPy, которая выделяет токены, определяет морфемы и части речи. А также приводим таблицу, которая показывает, как различные методы этой библиотеки справляются с корейскими смайликами, глаголами вежливости и уважительными суффиксами (не всё так просто!).

Морфология: Памяти А. А. Зализняка. Часть IV

Мы давно не удивляемся разговорам с голосовым помощником или банковским роботом-автоответчиком. Задать вопрос Siri или Алисе, продиктовать адрес навигатору — все это наши простые ежедневные действия. Мы привыкли, что приборы и поисковые системы не только неплохо понимают нас, но и сами понятно и грамотно говорят по-русски. Но так было не всегда