Что такое мешок слов и автоматическая обработка текста?

Что такое мешок слов?

Это упрощенное представление текста, которое показывает, какие слова встретились в тексте, но при этом не учитывает их порядок. Такое представление легко запрограммировать, оно удобно для использования в задачах автоматической обработки текста. Несмотря на свою простоту оно оказывается достаточно полезным и позволяет успешно решать такие задачи как классификация текста, т. е. отнесение текста к определенной группе/категории.

Как устроен мешок слов?

Представление мешка слов — это таблица с числами, в которой столбцы таблицы — уникальные слова, а строки — документы коллекции. В ячейках таблицы находится число вхождений слова в документ. Значит, в каждой строке получится набор чисел (он же вектор), характеризующий состав документа.

Пример мешка слов

Пусть у нас есть два текста: «Это были лучшие времена» и «Это было худшее время». В обоих предложениях встречается суммарно 5 различных слов, если привести к начальным формам: «Это», «Быть», «Лучший», «Худший», «Время». Это будет наш словарь.

Выделим встреченные слова из словаря в текстах: в первом встретились [«Это», «Быть», «Лучший», «Время»], а во втором — [«Это», «Быть», «Худший», «Время»].

Векторное представление мешка слов для первого текста будет [1 1 1 0 1], где нолик стоит на месте элемента «Худший», так как оно не встретилось в нем, а для второго — [1 1 0 1 1], где нолик на месте слова «Лучший». Так мы перешли к упрощенному машиночитаемому представлению двух текстов.

Нюансы использования

В реальных задачах все сложнее. Чтобы не мусорить в таблице, из текста убирают служебные слова. Слова приводят не обязательно к начальной форме (см. «лемматизация»), но иногда и обрезают, оставляя только грамматическую основу. (см. «стемминг»). Поэтому правильнее называть их уже не словами, а «токенами». Иногда столбцы обозначают не отдельные слова, а пары подряд идущих слов (биграммы) или тройки (триграммы).

Чаще всего в ячейках пишут не абсолютный показатель «слово встретилось 15 раз», а относительный показатель из статистики: он называется tf-idf и описывает важность слова для классификации текста.

Где это используется?

Мешок слов — полезный инструмент (или модель), который используется для разных задач, например, для классификации текстов на спам/не спам, определения похожести текстов и как упрощенный способ представления текстов для разных задач машинного обучения.

Автор: Системный Блокъ

Редактор: Системный Блокъ

Иллюстратор: Евгения Родикова

Теги:глоссарий, мешок слов

Что такое корпус текстов?

Если собрать много текстов на одном языке, это уже корпус? Если да, то много — это сколько? Рассказываем, что называется корпусом и какие есть критерии отбора текстов. Объясняем, почему «чем больше, тем лучше» не работает, как устроены национальные, веб- и мультимедийные корпусы, и зачем они нужны ученым (и не только)

Филипп Тучак

Что такое список Сводеша?

Для того, чтобы определить степень родства двух языков, часто сравнивают их лексический состав. Рассказываем о списке Сводеша — инструменте, созданном американским лингвистом Моррисом Сводешем для сравнения языков.

Мария Подрядчикова, Филипп Тучак

Что такое гражданская наука?

Необязательно быть учёным, чтобы вносить вклад в науку. Что такое гражданская наука? Какие её цели и тенденции? Как стать гражданским учёным и какие проекты для этого существуют? «Системный Блокъ» отвечает на эти вопросы.

Даниил Михайлюк

Что такое датасет в машинном обучении?

В машинном обучении не обойтись без данных. Точнее — без датасетов. Разбираемся, какие датасеты нужны моделям для «учёбы» и где их можно найти.

Даниил Михайлюк

Что такое мешок слов

Что такое мешок слов?

Как устроен мешок слов?

Пример мешка слов

Нюансы использования

Где это используется?

О проекте

Контакты

СОЦСЕТИ

Теги

Темы

Что такое мешок слов

Что такое мешок слов?

Как устроен мешок слов?

Пример мешка слов

Нюансы использования

Где это используется?

Читать по теме:

Что такое корпус текстов?

Что такое список Сводеша?

Что такое гражданская наука?

Что такое датасет в машинном обучении?

О проекте

Контакты

СОЦСЕТИ

Теги

Темы