Национальный корпус русского языка вырос в шесть раз

Национальный корпус русского языка (НКРЯ) пополнился новым разделом — Генеральным интернет-корпусом русского языка (ГИКРЯ). В него вошли тексты социальной сети ВКонтакте с 2007 по начало 2022 года. Общий объем НКРЯ вырос с 2,2 до 13,5 млрд словоупотреблений — более чем в шесть раз.

НКРЯ существует с 2004 года и объединяет более 50 корпусов: от древнерусских летописей XI века до современной прессы. В нем есть сбалансированный Основной корпус, дающий общее представление о письменном русском языке последних 200–300 лет, а также множество специализированных корпусов: газетный, синтаксический, поэтический, устный, мультимедийный, диалектный, исторический и другие.

До сих пор НКРЯ уступал по размеру зарубежным мегакорпусам — автоматически собираемым коллекциям объемом свыше 10 млрд слов. ГИКРЯ закрыл этот разрыв, причем у нового корпуса есть особенность, которой нет у конкурентов: социолингвистическая разметка. Каждому тексту приписаны данные об авторе — пол, возраст, город и регион проживания. Это позволяет изучать, как говорят люди разных поколений в разных частях страны, — и делать статистически значимые выводы на огромном массиве данных.

В дальнейшем в ГИКРЯ планируют добавить тексты других платформ, в частности Живого журнала. Разработку НКРЯ на протяжении более чем 20 лет поддерживает компания «Яндекс» — в том числе поисковую платформу и морфологическую разметку, для которой используются нейросетевые модели.

Почему это важно?

Языковые корпусы — основной инструмент современной лингвистики. В них ищут примеры употребления слов, изучают грамматику, отслеживают появление новых выражений. НКРЯ с ГИКРЯ — самый масштабный российский корпус.

Тексты соцсетей фиксируют то, что раньше почти не попадало в академические базы данных: живую разговорную речь, неологизмы, мемы, региональные словечки. Теперь все это доступно не только лингвистам, но и преподавателям, студентам и всем, кому интересно, как на самом деле выглядит современный русский язык.

Автор: Системный Блокъ

Редактор: Дарья Устюжанина

Теги:ГИКРЯ, национальный корпус русского языка, НКРЯ

Национальный корпус русского языка вырос в шесть раз

Почему это важно?

О проекте

Контакты

СОЦСЕТИ

Теги

Темы

Национальный корпус русского языка вырос в шесть раз

Почему это важно?

Читать по теме:

Власти США заставили Anthropic закрыть Fable и Mythos

Российский суд впервые оштрафовал компанию за ИИ-галлюцинации в судебном документе

ИИ найдет «скрытых» детей в соцсетях по костям лица

Модель из прошлого: исследователи обучили ИИ только на текстах до 1931 года

О проекте

Контакты

СОЦСЕТИ

Теги

Темы