Под капотом у языкового корпуса: как нейросети и NLP-библиотеки используются в НКРЯ

В Национальном корпусе русского языка за последние годы появилось много новых инструментов. Один из них — это «Портрет слова», который не только содержит информацию о морфологических признаках и морфемах каждого слова, но и дает представление, например, о его семантических соседях. В статье мы покажем, как пользоваться этим и другими заметными нововведениями, и расскажем, какие технологии за ними стоят.

06.08.2025

Иллюстрация: Надя Луценко

Морфологическая разметка

Что это такое

Для слов в Корпусе представлена морфологическая информация: например, лемма — начальная форма слова («кот» для слова «котами» или «писать» для слова «пишет»), часть речи и грамматические категории (время, род, число, падеж и т. п.).

Подробный список помет для НКРЯ есть на соответствующей странице.

Как это выглядит в Корпусе

Посмотрим, как выглядит морфологический разбор слова «пчёлы» из следующего примера:

В пути пчёлы, как правило, проводят не более пяти дней. [Почта доставляет «жужжащие» посылки // «Дмитриевский вестник» (Дмитриевский район Курской области), 19.05.2023]

Рис. 7. Морфологический разбор слова «пчёлы» с автоматически снятой омонимией

К морфологической разметке здесь относятся поля «Лемма» и «Грамматика». Можно заметить, что для слов с автоматически снятой омонимией указаны как основной разбор, так и дополнительные: из предложения ясно, что слово стоит в множественном числе и именительном падеже, но форма «пчелы» могла бы быть и родительным падежом единственного числа (кого? пчелы).

Как использовать

Достаточно нажать на любое слово в выдаче — подгрузится информация из карточки выше. Пометы могут незначительно (для обычного пользователя-нелингвиста) варьироваться в зависимости от типа снятия омонимии или вида корпуса.

Как это устроено

Раньше для снятия омонимии использовали морфологический анализатор MyStem. После обновления НКРЯ появилась новая русская модель морфосинтаксической разметки Rubic. В ее задачи входят лемматизация, создание морфологической характеристики для всех токенов, включая определение части речи, а также построение дерева синтаксической зависимости предложения.

Архитектура Rubic основана на архитектуре модели qbic, победившей в соревновании по обработке русского языка GramEval2020. В ней LSTM-энкодер получает векторизованные представления слов из модели sberbank-ai/ruBert, предобученной на 30 Гб данных, и комбинирует их с морфологическими пометами от анализатора PyMorphy2. Эти представления передаются трем декодерам, каждый из которых решает свою задачу классификации:

один определяет часть речи и грамматические признаки,
другой — выбирает лемму,
третий — строит синтаксическое дерево.

Для обучения модели использовались корпусы СинТагРус, UD-Taiga и НКРЯ: в обучающей выборке оказались самые разные тексты, от поэзии до постов из социальных сетей и статей из Википедии [1].

Подробно об архитектуре Rubic можно прочесть в статье об НКРЯ 2.0, а узнать о BERT-подобных нейросетях — в нашем материале.

Морфемный разбор

Что это такое

То же, что и разбор слова по составу. В школьном разборе сначала выделяются окончание и формообразующий суффикс (например, —л— у глаголов прошедшего времени), затем определяется основа слова, в ней выделяются приставки и суффиксы, корень.

Как это выглядит в Корпусе

Функция морфемного разбора доступна в «Портрете слова» — на той же странице, где ранее мы смотрели «Похожие слова». Сейчас она работает для двух корпусов: Основного и Обучающего. Интересно, что при этом разборы могут не совпадать: для разных корпусов используются разные словари.

Основной корпус опирается на принцип словаря А. И. Кузнецовой и Т. Ф. Ефремовой — в нем дробность выделения морфем выше, чем в привычной школьной традиции. Так об этом говорится в статье, посвященной новым инструментам в НКРЯ:

«В исконных словах могут выделяться морфемы, даже если слово без них употребляется маргинально (у-лыб-а-ть-ся, ср. у-смех-а-ть-ся) или если мотивированность этимологии слова для современного носителя неочевидна (на-сек-ом-ое, вос-точ-н-ый). В иностранных словах заимствованные основы членятся (например, ре-волюц-и-я, квит-анци-я), если усматривается семантическое и структурное соответствие между ними и лексемами похожего строения (ср. э-волюц-и-я, рас-квит-а-ть-ся)» [1].

Рис. 8. Пример морфемного разбора для слова из Основного корпуса

Обучающий корпус же следует школьной традиции — ведь он предназначен для преподавания русского языка и литературы в школах. В нем используется соответствующий школьным правилам морфемного разбора словарь А. Н. Тихонова.

Рис. 9. Пример морфемного разбора того же самого слова, но уже из Обучающего корпуса

Благодаря морфемной разметке в Основном корпусе также можно увидеть однокоренные слова.

Рис. 10. Слова, однокоренные слову «насекомое», согласно разметке Основного корпуса. В заголовке инструмента указано, что это бета-версия — в ней все еще могут встречаться ошибки и неточности

Как использовать

Так же, как и «Похожие слова», «Морфемный разбор» можно найти на странице «Портрета слова», в который заходим с главной страницы или через страницу поисковой выдачи.

Для морфемного разбора и однокоренных слов также можно оценить качество разборов.

Рис. 11. Оценка качества морфемного разбора

Как это устроено

Как мы сказали выше, разборы в разных корпусах используют данные из разных словарей. На их основе для НКРЯ были разработаны свои цифровые словари морфемного анализа — Morphodict-K и Morphodict-T соответственно для Основного и Обучающего корпусов. Для словарных слов используются разборы, данные в морфемном словаре. Если же слово в словаре отсутствует, используется одна из двух моделей для автоматической генерации разбора.

Рис. 12. Пример морфемного разбора, сгенерированного автоматически

Подпись «сгенерировано НейроКРЯ» говорит о том, что морфемный разбор был сделан автоматически. Можно видеть, что в слове «динозаврик» было странным образом выделено два корня. Если наличие двух корней в концепции Основного корпуса еще оправдано (см. цитату о «ре-волюц-и-и» выше), то наличие между ними соединительной гласной уже сомнительно.

Модели отличаются обучающей выборкой: для каждого из корпусов используется свой словарь. Сейчас каждая из них — это модель с архитектурой на основе ансамбля сверточных нейронных сетей, но разработчики Корпуса также экспериментируют с моделью RoRoBERTa.

Модели находятся в свободном доступе на сайте НКРЯ в разделе «Морфемные модели».

Оценка тональности для корпуса социальных сетей

Что это такое

Тональность текста — это его эмоциональная окраска. Например, высказывание «на улице 18 градусов тепла» скорее нейтрально, а высказывание «наконец-то стало потеплее, ура» скорее положительно. В НКРЯ тональность представлена всего в трех вариантах: неопределенная, отрицательная и положительная.

Как это выглядит в Корпусе

Для каждого из текстов в корпусе Социальных сетей указана тональность — ее можно увидеть в карточке текста.

Рис. 13. Пример из выдачи по запросу «кот» в подкорпусе с выбранной отрицательной тональностью

Как использовать

Чтобы выбрать только положительные, отрицательные или неопределенные тексты в поиске по корпусу Социальных сетей, нужно зайти в раздел «Отбор подкорпуса».

Рис. 14: Из корпуса Социальных сетей в него можно перейти, нажав кнопку «Задать»

Рис. 15. Выбираем один или несколько вариантов тональности

Рис. 16. «Кот» с положительной тональностью

Как это устроено

Для разметки тональности использовалась обучающая выборка на основе датасета RuSentiment и некоторого количества текстов из корпуса Социальных сетей, размеченных вручную. Обучающий датасет был размечен в том числе силами волонтеров — «друзей НКРЯ» — с помощью телеграм-бота.

В корпусе есть три категории текстов: с положительной, отрицательной и неопределенной тональностью. В последнюю категорию попадают тексты не на русском языке, поэзия, любой не авторский текст, а также тексты, сентимент которых сложно определить ввиду сильной зашумленности. Разметка была сделана с помощью модели RuRoBERTa-large, дообученной на собранной выборке. Для оценки качества работы модели была проведена кросс-валидация и ручная проверка на небольшом наборе данных — этим занимались эксперты НКРЯ.

Ключевые слова

Что это такое

Все читатели «Системного Блока» с ними сталкивались — в конце концов, у наших статей тоже есть теги, в которых отмечена тематика. Изданиям теги и ключевые слова нужны для навигации: с их помощью читателям легче найти статьи на интересующую тематику. А для компьютерных лингвистов выделение ключевых слов — это классическая задача, примерно настолько же популярная, как суммаризация или классификация текстов.

В НКРЯ ключевые слова представлены пока только в корпусе Региональных СМИ — короткие публицистические тексты легче всего описать набором тегов. Хотя, признаться честно, посмотреть на ключевые слова в стихах, личных письмах или анекдотах тоже было бы любопытно.

Как это выглядит в Корпусе

Рис. 17. Пример набора ключевых слов для статьи о художественной выставке в Череповце

Ключевые слова извлекаются из каждой статьи. При этом облако тегов достаточно обширно: в него входят общие понятия (живопись, выставки), специфические для описываемой темы детали (Пикассо, Художественный музей), а также дополнительная информация, не относящаяся к теме статьи напрямую. В данном примере «февраль» и «череповец» — это время и место проведения выставки.

Ключевые слова может и выглядят разномастными, зато для целей отбора подкорпуса подходят идеально.

Как использовать

Ключевые слова — часть метаразметки, поэтому их можно найти в карточке текста или при отборе подкорпуса.

В корпусе Региональных СМИ вводим нужное слово или словосочетание в блок «Ключевые слова» (он в интерфейсе идет сразу после «Основных параметров»):

Рис. 18. Блок «Ключевые слова»

Смотрим на выдачу:

Рис. 19. Пример выдачи по ключевому слову «Пушкин»

Благодаря разнообразию ключевых слов можно находить и более конкретные истории: например, если вас интересуют постановки по Пушкину, нужно выбрать «Пушкин» и «театр».

Рис. 20. Пример выдачи по ключевым словам «Пушкин» и «театр»

Как это устроено

Для извлечения ключевых слов на основе заранее заданных правил используется библиотека RuTermExtract. Кроме того, для работы были добавлены правила предобработки (например, правило объединения биграмм в кавычках, таких как «Комсомольская правда», в одну униграмму), исправлены некоторые ошибки лемматизации и удалены однокоренные униграммы.

Хотите больше узнать об НКРЯ?

Вы можете подписаться на новости Корпуса, а также ознакомиться с публикациями о других его возможностях на сайте. Корпусу посвящены и многие материалы «Системного Блока».

Работы по пополнению Регионального и Обучающих корпусов и корпуса Русская классика в 2024–2025 гг. поддержаны Благотворительным фондом содействия образованию «ДАР».

Источники

Bonch-Osmolovskaya A. A. et al. Russian National Сorpus 2.0: corpus platform, analysis tools, neural network models of data markup (full version) // Компьютерная лингвистика и интеллектуальные технологии. Выпуск 23.
Morozov D. et al. Automatic Morpheme Segmentation for Russian: Can an Algorithm Re-place Experts? //Journal of Language and Education. – 2024. – Т. 10. – №. 4. – С. 71–84.
rutermextract (библиотека Python). URL: https://github.com/igor-shevchenko/rutermextract (дата обращения: 10.07.2025).
НКРЯ Национальный корпус русского языка (телеграм-канал). URL: https://t.me/ruscorpora (дата обращения: 10.07.2025).
Савчук С. О. и др. Национальный корпус русского языка 2.0: новые возможности и перспективы развития //Вопросы языкознания. – 2024. – Т. 2. – С. 7–34.

Автор: Мария Подрядчикова

Редактор: Ксения Дмитриева

Иллюстратор: Надежда Луценко

Теги:анализ тональности, корпус, морфемный разбор, морфологический анализ, НКРЯ

Next Японский язык в цифровую эпоху: от кандзи до кода »

Previous « Как скачать весь Telegram: автоматизация выгрузки каналов с помощью Python

Tags: анализ тональностикорпусморфемный разборморфологический анализНКРЯ

06.08.2025

Что такое корпус текстов?

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

США усилили контроль над лидирующими ИИ моделями, ученые смогли полностью прочитать античный свиток, не разворачивая его — что произошло в…

06.07.2026

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Агенты, которые самостоятельно планируют свои действия и пользуются внешними инструментами. Модели, способные работать с миллионами токенов. Системы, которые помогают сохранять…

02.07.2026

Новости

Национальный корпус русского языка вырос в шесть раз

Теперь в него входят тексты ВКонтакте — почти 11,3 млрд слов из соцсетей

30.06.2026

Под капотом у языкового корпуса: как нейросети и NLP-библиотеки используются в НКРЯ

Похожие слова

Что это такое

Как это выглядит в Корпусе

Как использовать

Как это устроено

Морфологическая разметка

Что это такое

Как это выглядит в Корпусе

Как использовать

Как это устроено

Морфемный разбор

Что это такое

Как это выглядит в Корпусе

Как использовать

Как это устроено

Оценка тональности для корпуса социальных сетей

Что это такое

Как это выглядит в Корпусе

Как использовать

Как это устроено

Ключевые слова

Что это такое

Как это выглядит в Корпусе

Как использовать

Как это устроено

Хотите больше узнать об НКРЯ?

Источники

Related Post

Recent Posts

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Национальный корпус русского языка вырос в шесть раз