tf-idf

«Кладмен мудак»: анализ тональности отзывов о запрещенных веществах

Язык интернета имеет свои характерные черты. И если исследованию языка Рунета посвящено множество работ, то DarkNet все еще остается серым пятном в этом плане. С помощью анализа тональности текстов выясняем, какая лексика характерна для отзывов о запрещенных веществах.

Как вычислить TF-IDF?

Интуитивно задачу TF-IDF решает каждый, кто делал запрос в Гугле: нужно догадаться, какие слова ярче всего характеризуют запрос и «спросить» именно их. Хороший поисковик, если он хочет выдать релевантные результаты, тоже вычислит, какие слова несут больше всего смысла в текстах и соответствуют запросам. Как получить численные ответы на вопросы о том, какие слова важнее других и что это значит, читайте в глоссарии «Системного Блока»