NLP, Лингвистика 06.05.2023

От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна

Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали опасения о возможном закрытии сервиса. К счастью, проблемы оказались временными, и НКРЯ не только не прекратил свою работу, но и заметно изменился и расширился. Самым заметным обновлением стал новый дизайн сайта, но есть и много глубоких содержательных перемен. Об основных обновлениях в корпусе, очевидных и не очень — в нашем сегодняшнем материале.

Иллюстрация: Женя Родикова

Новые корпуса и пополнения

Невозможно представить себе корпус без текстов. За последние пару лет в НКРЯ не только появились новые коллекции, делающие его еще более репрезентативным, но и целые новые корпуса.

Панхронический корпус

Один из наиболее важных новых корпусов — панхронический. Как можно догадаться из названия, в корпусе присутствуют тексты разных периодов времени, от средневековых до современных. Чтобы подготовить его, лингвисты и разработчики объединили данные трех исторических корпусов — древнерусского, старорусского и корпуса берестяных грамот — и основного корпуса.

Это делает возможным составлять запросы, релевантные для нескольких веков развития русского языка. Грамматические признаки в новом корпусе унифицированы для всех корпусов, а искать можно по любой из форм слова: нормализованной раннедревнерусской (сълати), позднедревнерусской/старорусской (слати) или в современном русском облике (слать).

Пример запроса:
Имена собственные на -славъ:
Ссылка: https://ruscorpora.ru/s/epoQd

Пример из XI века:

Пример из XXI века

Русская классика

Произведения русских классических писателей, разумеется, присутствовали в корпусе и ранее. Тем не менее, добавление полных собраний сочинений в основной корпус могло бы негативно повлиять на сбалансированность корпуса. В собраниях сочинений тексты, в том числе и весьма объемные, очень часто печатаются в нескольких вариантах: так заинтересованный читатель может проследить, как менялся текст от первоначальной правки к изданию. Однако для сбалансированного корпуса такие повторы становятся ненужным дублированием данных.

Новый корпус «Русская классика» позволяет максимально полно представить наследие русской классики без каких-либо ограничений: например, включить даже черновики и редакционные варианты произведений.

Пример запроса:
Поиск оборота «она немедленно же» показывает, что он действительно характерен только для произведений Лескова
Ссылка: https://ruscorpora.ru/s/bWyge

От 2 до 15

Чтобы создать корпус детской литературы «От 2 до 15», был проведен масштабный опрос среди детей, подростков и их родителей. В ходе опроса авторы собрали информацию о самых популярных произведениях среди детей разных возрастов. Для каждого произведения была проведена разметка с помощью нейросетевых технологий: книги были разбиты на фрагменты, и для каждого фрагмента был предсказан возраст, в котором будет понятен этот текст.

В корпус вошли 75 наиболее популярных прозаических произведений зарубежных и отечественных авторов.

Пример запроса:

Можно, например, изучить несловарные формы в книгах о Гарри Поттере — в примеры из выдачи вошли не только имена собственные, но и специфичные для книг понятия, например, квиддич или зельеварение.

Ссылка на запрос: https://ruscorpora.ru/s/bDjBe

Корпус блогов

Корпус записей из блогов и социальных сетей появился совсем недавно (пришлось дополнять статью в процессе работы над ней :)) и явно будет очень активно развиваться: например, разработчики планируют ввести разметку эмоджи и поиск по ним 🤯

Уже сейчас можно исследовать диалоговую природу текстов: смотреть как на сами записи, так и на комментарии к ним.

И, конечно же, материал блогов и социальных сетей серьёзно отличается от текстов других корпусов.

Другие пополнения

Кроме того, были существенно дополнены и расширены и другие корпуса: в 2022 году объем НКРЯ вырос на 470 млн словоупотреблений и сейчас достигает более 1,5 миллиардов. Появились и новые параллельные корпуса: например, румынский и португальский.

Новые функции

Другим направлением по развитию корпуса стало внедрение новых функций, как в поиске, так и в описании корпусов.

Автоматическое снятие омонимии

Для того, чтобы качественно оценивать статистические метрики в НКРЯ, а значит, внедрять большую часть нового функционала, нужно было решить проблемы неснятой морфологической омонимии. Например, слово «пирога» может быть и родительным падежом от «пирог», и именительным от лодки «пирога».

Раньше корпус делился на «снятник» и «неснятник» — для относительно небольшой части текстов основного корпуса омонимия была снята вручную. Но за последние годы нейросети научились разрешать омонимию настолько хорошо, что стало возможным сделать это для всего корпуса. С помощью нейросетевой программы РуБик морфологическая разметка была улучшена и обновлена.

Сейчас версии с омонимией, снятой РуБиком, доступны для основного корпуса и корпуса региональных СМИ.

Поиск коллокаций

Ранее в НКРЯ были доступны два основных вида поиска: поиск точной формы слова и лексико-грамматический поиск. В первом случае пользователь получал в выдаче только те примеры, в которых слово встречалось в форме, заданной в запросе. В лексико-грамматическом поиске можно было искать слово по лемме (начальной форме слова, например, по слову «кот» в выдаче попадались «коты», «котом» или «коту»), а также задавать грамматические, семантические и другие признаки (например, падеж или число для существительного, время или лицо для глагола).

Поиск коллокаций отличается от других видов поиска тем, что помимо употреблений интересующего пользователя слова ищутся также слова, с которыми оно часто встречается вместе.

Например, со словом «блок» часто встречаются такие прилагательные, как «избирательный» или «прогрессивный», а «системный» даже не попал в первую десятку.

Ссылка на запрос: https://ruscorpora.ru/s/eEkNb

Частотность в выдаче

Частотность, таблицу которой мы показали вам выше — ещё одна новая функция. Теперь в выдаче можно найти не только список примеров (отрывками из текста или конкордансом), но и информацию о наиболее частотных употреблениях форм слова или словосочетаний.

Например, форма «дождичка» достаточно популярна для слова «дождичек» — сказывается популярность идиомы «после дождичка в четверг».

Ссылка на запрос: https://ruscorpora.ru/s/dGmya

Портрет корпуса

Кроме изменений в поиске и выдаче, дополнены и описания самих корпусов. Теперь пользователь может, нажав на кнопку «Об этом корпусе», получить основную информацию: описание корпуса и его особенностей, частотный словарь корпуса и статистику.

Описание корпуса

В описании указан состав корпуса, описание его разметки — морфологической и метатекстовой, а также релевантные публикации.

Описание на примере древнерусского корпуса

Частотный словарь

500 самых частотных лемм корпуса — чаще всего это служебные слова.

Частотный словарь для основного корпуса:

Статистика

Показаны статистические характеристики корпуса: можно посмотреть, например, на распределение текстов по метаатрибутам.

Статистика корпуса на примере основного:

Портрет подкорпуса

В портрете подкорпуса содержатся те же функции, что и в портрете корпуса, но теперь они сравниваются с исходным корпусом.

Например, посмотрим на разницу между полным вариантом основного корпуса и его подкорпуса, отобранного с признаками «художественные тексты, место и время действия — ирреальный мир». В этом примере слова отсортированы по изменению ранга: так, чтобы видеть значимые лексические отличия.

Слова, которые заметно чаще встречаются в художественных текстах, чем во всем корпусе:

А ещё, например, в подкорпусе одновременно больше доля текстов, где автор — мужчина, и текстов, где автор — женщина: кажется неинтуитивным, но дело в том, что для всего корпуса больше доля текстов, где автор неизвестен.

Портрет слова

Инструмент для тех, кто хочет собрать всю информацию об интересующем их слове.

Такой функционал уже был ранее в других национальных корпусах, теперь же исследовать слова можно и на материале русского языка.

В портрете слова есть:

облако слов с похожими по смыслу словами (близкие по смыслу слова находятся с помощью векторной семантики)
краткая информация о слове (лемма, грамматическая и семантическая информация, ссылка на словарное определение)
распределение употреблений слова по годам
статистика текстов по метаатрибутам
примеры употребления слова

Слова, похожие на «чипсы»:

До 1960-х чипсов не существовало (по крайней мере, в русскоязычных текстах в НКРЯ):

А в 1960-х появились в журнале «Химия и жизнь»:

И другие новые вещи

Возможно, вы уже заметили, но теперь в НКРЯ можно делать удобные и короткие ссылки на запрос. Например, такие: https://ruscorpora.ru/s/bk1xe
На странице «Инструменты преподавателя» (https://ruscorpora.ru/page/tools-tutor/) есть ссылки на упражнения на основе НКРЯ и другие материалы для учителей
Мобильная версия сайта — практически так же удобно, как с компьютера, а ещё можно искать слово «кот» прямо из метро

Отдельно отметим, что этот материал охватывает многие из изменений, но всё же не претендует на то, чтобы быть исчерпывающим.

Во-первых, часть из этих изменений могут быть достаточно специальными или не слишком заметными рядовому пользователю: например, появление автоматической синтаксической разметки в региональном корпусе или увеличение размера выгрузки (документа с примерами, который пользователь может скачать на своё устройство).И во-вторых, в самом Национальном корпусе русского языка освещаются все значительные изменения в корпусе. Про все основные новости можно прочесть здесь, а разобраться с тем, как работать с корпусом, если вы новичок — здесь. Документация корпуса, как и сам портал, тоже развивается постоянно 🙂

Автор: Мария Подрядчикова

Редактор: Вера Шимко

Иллюстратор: Евгения Родикова

Теги:корпус, национальный корпус русского языка, НКРЯ

От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна