Помните тест Нейросеть vs Стихи.ру? Тексты последнего пополнили акцентологический корпус НКРЯ.
Акцентологический корпус — что это?
В Национальном корпусе русского языка (НКРЯ) помимо основного есть специфические подкорпуса, например, акцентологический. Он создан для исследования русского ударения. В нём есть разные тексты, в частности, те, что входят и в поэтический корпус (XVIII–XXI вв.). Последние полезны тем, что ударение в них проставляется на этапе разметки метра. Иными словами, после определения размера стихотворения место падения ударения становится более очевидным, а это позволяет избежать проверки каждого слова в отдельности (ускорить и автоматизировать процесс).
Подробнее об акцентологическом корпусе можно почитать тут.
Наивная поэзия
Стихи.ру — старейший русскоязычный сайт, на котором могут публиковаться наивные (непрофессиональные) поэты. Их произведения не проходят специальной редактуры и находятся в открытом доступе. По этой причине наивные стихи не могут быть включены в поэтический корпус НКРЯ: в него входят только культурно значимые и отобранные профессионалами тексты.
Тем не менее у наивной поэзии есть очень важная для акцентологического корпуса особенность — ориентация на школьные стихи: авторы-любители зачастую создают нечто похожее на то, что проходят на уроках литературы. Благодаря этому в большинстве текстов чередуются определённым образом ударные и безударные слоги (то есть преобладает силлабо-тоническое стихосложение). Получается, автоматически предсказывать ударение для таких текстов должно быть ещё более удобно, чем для тех, которые входят в поэтический корпус (так как в первых использованы совсем простые размеры). Для этой цели авторы источника использовали машинное обучение. Полученные ими данные существенно пополнили акцентологический корпус.
![](https://sysblok.ru/wp-content/uploads/2023/09/image1-2.png)
Как пополнить корпус любительскими стихами
Учёным понадобилась локальная копия Стихов.ру, из которой они выбрали две коллекции текстов: одну случайно, другую — специальным образом. Для неё нужно было посчитать процент совпадения цепочек из двух слов (биграмм) между текстом с сайта и из поэтического корпуса. Пригодились только те произведения, у которых этот процент был не менее 60. Исследователи выдвинули гипотезу: если процент высок, то в выборку попадёт больше текстов с правильными двух- или трёхсложными размерами (не забываем про ориентацию на школьную программу)*. О её проверке расскажем ниже.
После отбора произведений использовали программу Ю. Г. Зеленкова, позволяющую определить метр и клаузулу (конец стиха) и разбить текст на стопы (сочетания слога, на которое падает ритмическое ударение, с безударными).
Принцип расстановки ударений
Существует предположение о том, что буквы в конце слова и его грамматические свойства (в частности, место падения ударения) связаны. Взглянем на список:
*вольнослу`шательницами |
свиде`тельницами |
лжесвиде`тельницами |
благоде`тельницами |
избави`тельницами |
прави`тельницами |
… |
состави`тельницами |
вдохнови`тельницами |
усынови`тельницами |
покрови`тельницами |
заяви`тельницами |
победи`тельницами |
… |
руководи`тельницами |
сопроводи`тельницами |
роди`тельницами |
распоряди`тельницами |
жи`тельницами |
скази`тельницами |
… |
проси`тельницами |
искуси`тельницами |
соврати`тельницами |
посети`тельницами |
похити`тельницами |
укроти`тельницами |
… |
учи`тельницами |
утеши`тельницами |
прия`тельницами |
настоя`тельницами |
ва`фельницами |
*отше`льницами |
Во всех словах, кроме помеченных звёздочками, буквы в конце и место, куда падает ударение, одинаковы. Получается, что вместо длинного списка, можно записать только одно слово, которое будет отражать свойства целого класса. Это будет выглядеть вот так:
*вольнослу`шательницами |
свиде`тельницами |
* отше`льницами |
Специально обученная программа сама расставляет ударения на основе выявленных классов. Более подробно об анализе стихотворений можно почитать в самой статье.
Ещё одна особенность наивной поэзии
В некоторых текстах силлабо-тоническое стихосложение нарушалось. Исследователи пришли к выводу, что это объясняется не переменой размера внутри одного стихотворения, а простыми ошибками. Для таких случаев ввели аббревиатуру «НУР» — неурегулированный размер. Учёные не стали пополнять корпус текстами, в которых больше 30% строк содержали нарушения метра.
Выше говорилось о гипотезе: если текст любительского стихотворения совпадает по биграммам на 60% и более с произведениями из поэтического корпуса, то в нём будет лучше выдержана силлабо-тоника, чем в текстах, отобранных случайным образом. Однако полученные данные опровергают эту гипотезу — она не прошла статистические тесты. И в первой коллекции текстов, и во второй наблюдаются нарушения.
Наборы данных | Строки | НУР |
1 | 2 186 617 | 211 244 |
2 | 1 461 562 | 118 972 |
Результат
После пополнения из stihi.ru акцентологический корпус содержит более чем 160 тыс. стихотворений. Поскольку большинство стихотворений написаны распространёнными и регулярными метрами, это помогло добиться высокой точности автоматической разметки ударения. А в корпусе стало ещё больше текстов, отражающих реальное использование языка его носителями.
Источники
- Гришина Е. А, Зеленков Ю. Г., Орехов Б. В. Наивная поэзия в акцентологическом корпусе // Труды Института русского языка им. В. В. Виноградова. — 2015. — Вып. 6. — С. 257—271. http://nevmenandr.net/personalia/naiveaccentology.pdf
- Национальный корпус русского языка. 2003—2023. (ruscorpora.ru)
- Орехов Б. В., Савчук С. О. Акцентологический корпус как инструмент для исследования русского ударения // Труды Института русского языка им. В. В. Виноградова. Вып. 21. М.: 2019. С. 61—82. https://ruslang.ru/doc/trudy/vol21/3-orechov.pdf
* Почему важно, чтобы в метре не было нарушений? Это полезно для автоматической расстановки ударений — будет меньше ошибок со стороны машины.