Вы могли уже встречать термин N-грамма. Если вас пугало или вы хотели получше разобраться, что это, то этот пост для вас.
© pixabay.com
N-грамма — это просто последовательность из n элементов (звуков, слогов, слов или символов), идущих в каком-то тексте подряд. На практике чаще имеют в виду ряд слов (реже — символов). Последовательность из двух элементов называют биграмма, из трёх элементов — триграмма.
Например, вот N-граммы слов:
Вычислив частоту вхождения N-грамм в текстах корпуса, можно узнать кое-что о корпусе или отдельных текстах. Например, если сравнить тексты одного автора с текстами множества других, то можно выявить некоторые авторские “фишки”, обороты и идиомы, которые автор использует чаще всего. Причем он даже может делать это неосознанно.
Если исследовать большие языковые корпуса (например, Google Books или Википедию), то можно выявить закономерности более широкого плана. Например, устойчивые выражения в языке или даже некоторые общественные тренды, отражающиеся в частотностях N-грамм.
N-граммы часто используются в следующих задачах:
Интересное применение N-грамм демонстрирует Google в своем инструменте Google Ngram Viewer. Оцифровав коллекцию книг (Google Books), Google выдал нам инструмент для визуализации изменений в текстах с учетом времени. Здесь можно увидеть, как в книгах отражались важные мировые события, пики популярности исторических личностей (см. наше исследование про Ленина и Сталина) и художественных персонажей.
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…