© pixabay.com

N-грамма — это просто последовательность из n элементов (звуков, слогов, слов или букв). На практике чаще имеют в виду ряд слов (реже — букв). Последовательность из двух последовательных элементов называют биграмма, из трёх элементов — триграмма.

Например, N-граммы по словам:

Вычислив частоту вхождения N-грамм в текстах, можно узнать много интересного о природе текста и авторе. Если тексты принадлежат одному автору, то можно выявить некоторые авторские “фишки”, обороты и идиомы, которые автор использует чаще всего, причем он может делать это совершенно неосознанно. Если исследовать большие языковые корпуса (например, википедию или либрусек), то можно выявить закономерности более широкого плана. Например, устойчивые выражения в языке. Какими инструментами можно самому вычислить N-граммы, мы расскажем в следующих постах.

N-граммы часто используются в следующих задачах:

  • Выдачи подсказок следующего слова (например, в поисковой строке). N-граммная модель позволяют вычислить вероятность следующего слова N-граммы, если известны предыдущие.
  • Выявления авторства или плагиата. Можно вычислить N-граммы для разных текстов и сравнить степень сходства.
  • Машинного перевода. Да-да, google translate их тоже использует.
  • Поиска и коррекции ошибок

Интересное применение N-грамм демонстрирует Google в своем инструменте Google Ngram Viewer. Проанализировав коллекцию книг(Google Books) Google выдал нам инструмент для визуализации изменений в текстах с учетом времени. Здесь можно увидеть, как в книгах отражались важные мировые события, пики популярности исторических личностей. Об интересных примерах мы расскажем в следующих постах.