Как это работает

Что такое N-граммы и с чем их едят?

Вы могли уже встречать термин N-грамма. Если вас пугало или вы хотели получше разобраться, что это, то этот пост для вас.

N-грамма — это просто последовательность из n элементов (звуков, слогов, слов или символов), идущих в каком-то тексте подряд. На практике чаще имеют в виду ряд слов (реже — символов). Последовательность из двух элементов называют биграмма, из трёх элементов — триграмма.

Например, вот N-граммы слов:

Вычислив частоту вхождения N-грамм в текстах корпуса, можно узнать кое-что о корпусе или отдельных текстах. Например, если сравнить тексты одного автора с текстами множества других, то можно выявить некоторые авторские “фишки”, обороты и идиомы, которые автор использует чаще всего. Причем он даже может делать это неосознанно.

Если исследовать большие языковые корпуса (например, Google Books или Википедию), то можно выявить закономерности более широкого плана. Например, устойчивые выражения в языке или даже некоторые общественные тренды, отражающиеся в частотностях N-грамм.

Частотности биграмм, состоящих из прилагательного «боевая» и любого существительного, в Google books в XX веке. Почти все «боевое» имеет общий всплеск частотности в первой половине 1940-х (годы ВОВ), а, например, «боевая организация» появляется и спадает раньше, в 1910-е – 1920-е. И это закономерно: «боевая организация» — революционная биграмма. Были боевые организации эсеров, большевиков и прочих революционных партий.

N-граммы часто используются в следующих задачах:

  • Выдачи подсказок следующего слова (например, в поисковой строке). N-граммная модель позволяют вычислить вероятность следующего слова N-граммы, если известны предыдущие.
  • Выявления авторства или плагиата. Можно вычислить N-граммы для разных текстов и сравнить степень сходства.
  • Поиска и коррекции ошибок

Интересное применение N-грамм демонстрирует Google в своем инструменте Google Ngram Viewer. Оцифровав коллекцию книг (Google Books), Google выдал нам инструмент для визуализации изменений в текстах с учетом времени. Здесь можно увидеть, как в книгах отражались важные мировые события, пики популярности исторических личностей (см. наше исследование про Ленина и Сталина) и художественных персонажей.

Share

Recent Posts

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время

25.05.2026

ИИ найдет «скрытых» детей в соцсетях по костям лица

Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст

19.05.2026

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…

19.05.2026