Как устроено ударение в русском языке: ученые разбираются на данных stihi ru

Помните тест Нейросеть vs Стихи.ру? Тексты последнего пополнили акцентологический корпус НКРЯ.

Акцентологический корпус — что это?

В Национальном корпусе русского языка (НКРЯ) помимо основного есть специфические подкорпуса, например, акцентологический. Он создан для исследования русского ударения. В нём есть разные тексты, в частности, те, что входят и в поэтический корпус (XVIII–XXI вв.). Последние полезны тем, что ударение в них проставляется на этапе разметки метра. Иными словами, после определения размера стихотворения место падения ударения становится более очевидным, а это позволяет избежать проверки каждого слова в отдельности (ускорить и автоматизировать процесс).

Подробнее об акцентологическом корпусе можно почитать тут.

Наивная поэзия

Стихи.ру — старейший русскоязычный сайт, на котором могут публиковаться наивные (непрофессиональные) поэты. Их произведения не проходят специальной редактуры и находятся в открытом доступе. По этой причине наивные стихи не могут быть включены в поэтический корпус НКРЯ: в него входят только культурно значимые и отобранные профессионалами тексты.

Тем не менее у наивной поэзии есть очень важная для акцентологического корпуса особенность — ориентация на школьные стихи: авторы-любители зачастую создают нечто похожее на то, что проходят на уроках литературы. Благодаря этому в большинстве текстов чередуются определённым образом ударные и безударные слоги (то есть преобладает силлабо-тоническое стихосложение). Получается, автоматически предсказывать ударение для таких текстов должно быть ещё более удобно, чем для тех, которые входят в поэтический корпус (так как в первых использованы совсем простые размеры). Для этой цели авторы источника использовали машинное обучение. Полученные ими данные существенно пополнили акцентологический корпус.

*Пример стихотворения с сайта Стихи.ру в акцентологическом подкорпусе НКРЯ*

Как пополнить корпус любительскими стихами

Учёным понадобилась локальная копия Стихов.ру, из которой они выбрали две коллекции текстов: одну случайно, другую — специальным образом. Для неё нужно было посчитать процент совпадения цепочек из двух слов (биграмм) между текстом с сайта и из поэтического корпуса. Пригодились только те произведения, у которых этот процент был не менее 60. Исследователи выдвинули гипотезу: если процент высок, то в выборку попадёт больше текстов с правильными двух- или трёхсложными размерами (не забываем про ориентацию на школьную программу)*. О её проверке расскажем ниже.

После отбора произведений использовали программу Ю. Г. Зеленкова, позволяющую определить метр и клаузулу (конец стиха) и разбить текст на стопы (сочетания слога, на которое падает ритмическое ударение, с безударными).

Принцип расстановки ударений

Существует предположение о том, что буквы в конце слова и его грамматические свойства (в частности, место падения ударения) связаны. Взглянем на список:

*вольнослу`шательницами

свиде`тельницами

лжесвиде`тельницами

благоде`тельницами

избави`тельницами

прави`тельницами

…

состави`тельницами

вдохнови`тельницами

усынови`тельницами

покрови`тельницами

заяви`тельницами

победи`тельницами

…

руководи`тельницами

сопроводи`тельницами

роди`тельницами

распоряди`тельницами

жи`тельницами

скази`тельницами

…

проси`тельницами

искуси`тельницами

соврати`тельницами

посети`тельницами

похити`тельницами

укроти`тельницами

…

учи`тельницами

утеши`тельницами

прия`тельницами

настоя`тельницами

ва`фельницами

*отше`льницами

Таблица 1 из источника[1] — фрагмент списка 150 слов с проставленными ударениями. Акцент делается на том, что они везде стоят одинаково (кроме слов под знаком «*»). Слова со звёздочкой и без различаются лишь буквами в конце

Во всех словах, кроме помеченных звёздочками, буквы в конце и место, куда падает ударение, одинаковы. Получается, что вместо длинного списка, можно записать только одно слово, которое будет отражать свойства целого класса. Это будет выглядеть вот так:

*вольнослу`шательницами

свиде`тельницами

* отше`льницами

Таблица 2 из источника[1]. Вместо множества слов с одинаково падающим ударением указано лишь одно как представитель всего класса

Специально обученная программа сама расставляет ударения на основе выявленных классов. Более подробно об анализе стихотворений можно почитать в самой статье.

Ещё одна особенность наивной поэзии

В некоторых текстах силлабо-тоническое стихосложение нарушалось. Исследователи пришли к выводу, что это объясняется не переменой размера внутри одного стихотворения, а простыми ошибками. Для таких случаев ввели аббревиатуру «НУР» — неурегулированный размер. Учёные не стали пополнять корпус текстами, в которых больше 30% строк содержали нарушения метра.

Выше говорилось о гипотезе: если текст любительского стихотворения совпадает по биграммам на 60% и более с произведениями из поэтического корпуса, то в нём будет лучше выдержана силлабо-тоника, чем в текстах, отобранных случайным образом. Однако полученные данные опровергают эту гипотезу — она не прошла статистические тесты. И в первой коллекции текстов, и во второй наблюдаются нарушения.

Наборы данных	Строки	НУР
1	2 186 617	211 244
2	1 461 562	118 972

Таблица 3 из источника[1]. НУР — строки стихотворений, для которых не удалось установить принадлежность к силлабо-тоническому сложению

Результат

После пополнения из stihi.ru акцентологический корпус содержит более чем 160 тыс. стихотворений. Поскольку большинство стихотворений написаны распространёнными и регулярными метрами, это помогло добиться высокой точности автоматической разметки ударения. А в корпусе стало ещё больше текстов, отражающих реальное использование языка его носителями.

Источники

Гришина Е. А, Зеленков Ю. Г., Орехов Б. В. Наивная поэзия в акцентологическом корпусе // Труды Института русского языка им. В. В. Виноградова. — 2015. — Вып. 6. — С. 257—271. http://nevmenandr.net/personalia/naiveaccentology.pdf
Национальный корпус русского языка. 2003—2023. (ruscorpora.ru)
Орехов Б. В., Савчук С. О. Акцентологический корпус как инструмент для исследования русского ударения // Труды Института русского языка им. В. В. Виноградова. Вып. 21. М.: 2019. С. 61—82. https://ruslang.ru/doc/trudy/vol21/3-orechov.pdf

* Почему важно, чтобы в метре не было нарушений? Это полезно для автоматической расстановки ударений — будет меньше ошибок со стороны машины.

Автор: Яна Хлусова

Редактор: Даниил Скоринкин

Иллюстратор: Надежда Луценко

Теги:stihi ru, НКРЯ, поэтический корпус

Что мы узнали об ударении в русском языке и о наивной поэзии из корпуса stihi.ru

Акцентологический корпус — что это?

Наивная поэзия

Как пополнить корпус любительскими стихами

Принцип расстановки ударений

Ещё одна особенность наивной поэзии

Результат

Источники

О проекте

Контакты

СОЦСЕТИ

Теги

Темы

Что мы узнали об ударении в русском языке и о наивной поэзии из корпуса stihi.ru

Акцентологический корпус — что это?

Наивная поэзия

Как пополнить корпус любительскими стихами

Принцип расстановки ударений

Ещё одна особенность наивной поэзии

Результат

Источники

Читать по теме:

Программирование для филологов и нейропоэзия: интервью с Борисом Ореховым

Акцентуаторы. Памяти А.А. Зализняка. Часть III

О проекте

Контакты

СОЦСЕТИ

Теги

Темы