Как вычислить TF-IDF?

Интуитивно задачу TF-IDF решает каждый, кто делал запрос в Гугле: нужно догадаться, какие слова ярче всего характеризуют запрос и «спросить» именно их. Хороший поисковик, если он хочет выдать релевантные результаты, тоже вычислит, какие слова несут больше всего смысла в текстах и соответствуют запросам. Как получить численные ответы на вопросы о том, какие слова важнее других и что это значит, читайте в глоссарии «Системного Блока»

TF-IDF — произведение двух множителей. Чем важнее слово для определения темы документа внутри коллекции, тем больше произведение. Первый множитель — частота слова (термина) в документе. Это TF — term frequency. Второй множитель — IDF — inverse document frequency — число всех документов в коллекции, деленное на число документов с нужным термином. Так как IDF — дробь, чем меньше ее знаменатель, тем больше значение. Поэтому IDF слова растет, если в корпусе слово встречается «концентрированно», в небольшом числе текстов. Так IDF уменьшает значимость слов, которые в принципе встречаются часто во всех текстах корпуса. TF может получиться очень маленьким, а IDF — очень большим, и чтобы работать с числами в большом диапазоне, из IDF перед умножением на TF берут логарифм , но есть разные варианты итоговых формул. Мы предлагаем такой: TF-IDF = TF * log(IDF)

Разберем на примерах с яблоками

Пусть у нас есть два корпуса. Первый — про летний отдых, а второй — про фрукты. В корпусе текстов про летний отдых редко упоминаются яблоки (в 5 текстах из 250), в основном речь про бадминтон и серфинг. Зато там есть текст про дачу и сбор урожая, «яблоко» встречается в нем 20 раз. Для «дачного» текста «яблоко» описывает тему документа.
В корпусе про фрукты яблоки встречаются часто: в 200 текстах из 250. Зато текст, который мы наугад взяли из этого корпуса — про цитрусовые, и яблоко там встречается всего десять раз, когда его сравнивают с апельсинами. В этом тексте «яблоко» не описывает тему документа.

Частота термина в тексте про дачу — 20/100 = 0.2 (считаем, что в каждом тексте по сто слов)
Частота термина в тексте про цитрусовые — 10/100 = 0.1
В корпусе про летний отдых яблоки — в 5 текстах из 250. Обратная частота документов (IDF) = 250/5 = 50. log(IDF) = log(50) = 1.69.
В корпусе про фрукты яблоки — в 200 текстах из 250. IDF = 250/200 = 1,25. log(IDF) = log(1,25) = 0,096
В корпусе, где яблоки «сгруппировались» в паре текстов TF-IDF = 0,2 * 1,69 = 0,338
В корпусе, где яблоки «размазаны» по документам TF-IDF = 0,1 * 0,096 = 0,0096
Высокий TF-IDF показал, что слово важно для понимания темы.

Где это используют?

Самое широкое использование TF-IDF раньше имел в поиске: там важно понимать, какие статьи релевантны запросу пользователя. Вместе с другими идеями TF-IDF позволяет перевести текст в числовые вектора, между которыми можно измерить расстояние (и понять, где в нашей системе координат очутился текст) — так можно решать задачу классификации и кластеризации текстов по их содержанию.

Если вас заинтересовал этот термин, рекомендуем также почитать:

Автор: Владимир Селеверстов

Редактор: Даниил Скоринкин

Иллюстратор: Евгения Родикова

Теги:tf-idf

Что такое корпус текстов?

Если собрать много текстов на одном языке, это уже корпус? Если да, то много — это сколько? Рассказываем, что называется корпусом и какие есть критерии отбора текстов. Объясняем, почему «чем больше, тем лучше» не работает, как устроены национальные, веб- и мультимедийные корпусы, и зачем они нужны ученым (и не только)

Филипп Тучак

Что такое список Сводеша?

Для того, чтобы определить степень родства двух языков, часто сравнивают их лексический состав. Рассказываем о списке Сводеша — инструменте, созданном американским лингвистом Моррисом Сводешем для сравнения языков.

Мария Подрядчикова, Филипп Тучак

Что такое гражданская наука?

Необязательно быть учёным, чтобы вносить вклад в науку. Что такое гражданская наука? Какие её цели и тенденции? Как стать гражданским учёным и какие проекты для этого существуют? «Системный Блокъ» отвечает на эти вопросы.

Даниил Михайлюк

Что такое датасет в машинном обучении?

В машинном обучении не обойтись без данных. Точнее — без датасетов. Разбираемся, какие датасеты нужны моделям для «учёбы» и где их можно найти.

Даниил Михайлюк

Как вычислить TF-IDF?

Разберем на примерах с яблоками

Где это используют?

О проекте

Контакты

СОЦСЕТИ

Теги

Темы

Как вычислить TF-IDF?

Разберем на примерах с яблоками

Где это используют?

Читать по теме:

Что такое корпус текстов?

Что такое список Сводеша?

Что такое гражданская наука?

Что такое датасет в машинном обучении?

О проекте

Контакты

СОЦСЕТИ

Теги

Темы