Национальный корпус русского языка (НКРЯ) пополнился новым разделом — Генеральным интернет-корпусом русского языка (ГИКРЯ). В него вошли тексты социальной сети ВКонтакте с 2007 по начало 2022 года. Общий объем НКРЯ вырос с 2,2 до 13,5 млрд словоупотреблений — более чем в шесть раз.
НКРЯ существует с 2004 года и объединяет более 50 корпусов: от древнерусских летописей XI века до современной прессы. В нем есть сбалансированный Основной корпус, дающий общее представление о письменном русском языке последних 200–300 лет, а также множество специализированных корпусов: газетный, синтаксический, поэтический, устный, мультимедийный, диалектный, исторический и другие.
До сих пор НКРЯ уступал по размеру зарубежным мегакорпусам — автоматически собираемым коллекциям объемом свыше 10 млрд слов. ГИКРЯ закрыл этот разрыв, причем у нового корпуса есть особенность, которой нет у конкурентов: социолингвистическая разметка. Каждому тексту приписаны данные об авторе — пол, возраст, город и регион проживания. Это позволяет изучать, как говорят люди разных поколений в разных частях страны, — и делать статистически значимые выводы на огромном массиве данных.
В дальнейшем в ГИКРЯ планируют добавить тексты других платформ, в частности Живого журнала. Разработку НКРЯ на протяжении более чем 20 лет поддерживает компания «Яндекс» — в том числе поисковую платформу и морфологическую разметку, для которой используются нейросетевые модели.
Почему это важно?
Языковые корпусы — основной инструмент современной лингвистики. В них ищут примеры употребления слов, изучают грамматику, отслеживают появление новых выражений. НКРЯ с ГИКРЯ — самый масштабный российский корпус.
Тексты соцсетей фиксируют то, что раньше почти не попадало в академические базы данных: живую разговорную речь, неологизмы, мемы, региональные словечки. Теперь все это доступно не только лингвистам, но и преподавателям, студентам и всем, кому интересно, как на самом деле выглядит современный русский язык.