Новости

Национальный корпус русского языка вырос в шесть раз

Теперь в него входят тексты ВКонтакте — почти 11,3 млрд слов из соцсетей

Национальный корпус русского языка (НКРЯ) пополнился новым разделом — Генеральным интернет-корпусом русского языка (ГИКРЯ). В него вошли тексты социальной сети ВКонтакте с 2007 по начало 2022 года. Общий объем НКРЯ вырос с 2,2 до 13,5 млрд словоупотреблений — более чем в шесть раз.

НКРЯ существует с 2004 года и объединяет более 50 корпусов: от древнерусских летописей XI века до современной прессы. В нем есть сбалансированный Основной корпус, дающий общее представление о письменном русском языке последних 200–300 лет, а также множество специализированных корпусов: газетный, синтаксический, поэтический, устный, мультимедийный, диалектный, исторический и другие. 

До сих пор НКРЯ уступал по размеру зарубежным мегакорпусам — автоматически собираемым коллекциям объемом свыше 10 млрд слов. ГИКРЯ закрыл этот разрыв, причем у нового корпуса есть особенность, которой нет у конкурентов: социолингвистическая разметка. Каждому тексту приписаны данные об авторе — пол, возраст, город и регион проживания. Это позволяет изучать, как говорят люди разных поколений в разных частях страны, — и делать статистически значимые выводы на огромном массиве данных.

В дальнейшем в ГИКРЯ планируют добавить тексты других платформ, в частности Живого журнала. Разработку НКРЯ на протяжении более чем 20 лет поддерживает компания «Яндекс» — в том числе поисковую платформу и морфологическую разметку, для которой используются нейросетевые модели.

Почему это важно?

Языковые корпусы — основной инструмент современной лингвистики. В них ищут примеры употребления слов, изучают грамматику, отслеживают появление новых выражений. НКРЯ с ГИКРЯ — самый масштабный российский корпус.

Тексты соцсетей фиксируют то, что раньше почти не попадало в академические базы данных: живую разговорную речь, неологизмы, мемы, региональные словечки. Теперь все это доступно не только лингвистам, но и преподавателям, студентам и всем, кому интересно, как на самом деле выглядит современный русский язык.

Share

Recent Posts

Аккордовый ввод текста для японского языка

Как набирают текст на компьютерах и смартфонах в Японии? Рассказываем о разных способах ввода: от JIS-клавиатур с хираганой и катаканой…

29.06.2026

Что монеты могут рассказать о переходе от Античности к Средневековью

В музее вы точно заметите разноцветные фрески и изысканные статуи, а вот мимо монет можете пройти. Хотя они хорошо помогают…

26.06.2026

Почему современные технологии не понимают африканские манускрипты?

В массовой культуре африканские манускрипты иногда воспринимаются как некие мистические артефакты и вообще экзотизируются. На самом деле за африканскими языками…

19.06.2026