токенизация

Какие темы интересуют современных востоковедов и как им помогают в исследованиях цифровые технологии?

Что узнали учёные, исследующие религиозность африканцев? Какие инструменты помогают анализировать древние рукописные иероглифы и токенизировать азиатские тексты? И что творят…

05.08.2024

Text-mining китайского языка: гайд по библиотеке Jieba

Китайский язык может быть очень сложно токенизировать, чтобы извлечь информацию из большого объёма текста: стандартные инструменты путаются в иероглифах. Рассказываем,…

02.05.2024

Text-mining корейского языка: гайд по библиотеке koNLPy

Как автоматически провести токенизацию и морфологический анализ текстов на корейском языке? Рассказываем про библиотеку koNLPy, которая выделяет токены, определяет морфемы…

22.04.2024

Text-mining японского текста: гайд по библиотеке fugashi

Мы уже рассказывали, как работать с японским языком с помощью сервиса Voyant Tools. Покажем, как можно самостоятельно провести токенизацию текстов…

16.04.2024

Мы с Тамарой ходим парой: как работает алгоритм токенизации текстов для нейросетей

Первым шагом в автоматической обработке текста обычно становится токенизация (деление на слова или под-слова). Рассказываем, как сложную задачу токенизации решает…

18.11.2020