Помните тест Нейросеть vs Стихи.ру? Тексты последнего пополнили акцентологический корпус НКРЯ.
Акцентологический корпус — что это?
В Национальном корпусе русского языка (НКРЯ) помимо основного есть специфические подкорпуса, например, акцентологический. Он создан для исследования русского ударения. В нём есть разные тексты, в частности, те, что входят и в поэтический корпус (XVIII–XXI вв.). Последние полезны тем, что ударение в них проставляется на этапе разметки метра. Иными словами, после определения размера стихотворения место падения ударения становится более очевидным, а это позволяет избежать проверки каждого слова в отдельности (ускорить и автоматизировать процесс).
Подробнее об акцентологическом корпусе можно почитать тут.
Наивная поэзия
Стихи.ру — старейший русскоязычный сайт, на котором могут публиковаться наивные (непрофессиональные) поэты. Их произведения не проходят специальной редактуры и находятся в открытом доступе. По этой причине наивные стихи не могут быть включены в поэтический корпус НКРЯ: в него входят только культурно значимые и отобранные профессионалами тексты.
Тем не менее у наивной поэзии есть очень важная для акцентологического корпуса особенность — ориентация на школьные стихи: авторы-любители зачастую создают нечто похожее на то, что проходят на уроках литературы. Благодаря этому в большинстве текстов чередуются определённым образом ударные и безударные слоги (то есть преобладает силлабо-тоническое стихосложение). Получается, автоматически предсказывать ударение для таких текстов должно быть ещё более удобно, чем для тех, которые входят в поэтический корпус (так как в первых использованы совсем простые размеры). Для этой цели авторы источника использовали машинное обучение. Полученные ими данные существенно пополнили акцентологический корпус.
Как пополнить корпус любительскими стихами
Учёным понадобилась локальная копия Стихов.ру, из которой они выбрали две коллекции текстов: одну случайно, другую — специальным образом. Для неё нужно было посчитать процент совпадения цепочек из двух слов (биграмм) между текстом с сайта и из поэтического корпуса. Пригодились только те произведения, у которых этот процент был не менее 60. Исследователи выдвинули гипотезу: если процент высок, то в выборку попадёт больше текстов с правильными двух- или трёхсложными размерами (не забываем про ориентацию на школьную программу)*. О её проверке расскажем ниже.
После отбора произведений использовали программу Ю. Г. Зеленкова, позволяющую определить метр и клаузулу (конец стиха) и разбить текст на стопы (сочетания слога, на которое падает ритмическое ударение, с безударными).
Принцип расстановки ударений
Существует предположение о том, что буквы в конце слова и его грамматические свойства (в частности, место падения ударения) связаны. Взглянем на список:
*вольнослу`шательницами |
свиде`тельницами |
лжесвиде`тельницами |
благоде`тельницами |
избави`тельницами |
прави`тельницами |
… |
состави`тельницами |
вдохнови`тельницами |
усынови`тельницами |
покрови`тельницами |
заяви`тельницами |
победи`тельницами |
… |
руководи`тельницами |
сопроводи`тельницами |
роди`тельницами |
распоряди`тельницами |
жи`тельницами |
скази`тельницами |
… |
проси`тельницами |
искуси`тельницами |
соврати`тельницами |
посети`тельницами |
похити`тельницами |
укроти`тельницами |
… |
учи`тельницами |
утеши`тельницами |
прия`тельницами |
настоя`тельницами |
ва`фельницами |
*отше`льницами |
Во всех словах, кроме помеченных звёздочками, буквы в конце и место, куда падает ударение, одинаковы. Получается, что вместо длинного списка, можно записать только одно слово, которое будет отражать свойства целого класса. Это будет выглядеть вот так:
*вольнослу`шательницами |
свиде`тельницами |
* отше`льницами |
Специально обученная программа сама расставляет ударения на основе выявленных классов. Более подробно об анализе стихотворений можно почитать в самой статье.
Ещё одна особенность наивной поэзии
В некоторых текстах силлабо-тоническое стихосложение нарушалось. Исследователи пришли к выводу, что это объясняется не переменой размера внутри одного стихотворения, а простыми ошибками. Для таких случаев ввели аббревиатуру «НУР» — неурегулированный размер. Учёные не стали пополнять корпус текстами, в которых больше 30% строк содержали нарушения метра.
Выше говорилось о гипотезе: если текст любительского стихотворения совпадает по биграммам на 60% и более с произведениями из поэтического корпуса, то в нём будет лучше выдержана силлабо-тоника, чем в текстах, отобранных случайным образом. Однако полученные данные опровергают эту гипотезу — она не прошла статистические тесты. И в первой коллекции текстов, и во второй наблюдаются нарушения.
Наборы данных | Строки | НУР |
1 | 2 186 617 | 211 244 |
2 | 1 461 562 | 118 972 |
Результат
После пополнения из stihi.ru акцентологический корпус содержит более чем 160 тыс. стихотворений. Поскольку большинство стихотворений написаны распространёнными и регулярными метрами, это помогло добиться высокой точности автоматической разметки ударения. А в корпусе стало ещё больше текстов, отражающих реальное использование языка его носителями.
Источники
- Гришина Е. А, Зеленков Ю. Г., Орехов Б. В. Наивная поэзия в акцентологическом корпусе // Труды Института русского языка им. В. В. Виноградова. — 2015. — Вып. 6. — С. 257—271. http://nevmenandr.net/personalia/naiveaccentology.pdf
- Национальный корпус русского языка. 2003—2023. (ruscorpora.ru)
- Орехов Б. В., Савчук С. О. Акцентологический корпус как инструмент для исследования русского ударения // Труды Института русского языка им. В. В. Виноградова. Вып. 21. М.: 2019. С. 61—82. https://ruslang.ru/doc/trudy/vol21/3-orechov.pdf
* Почему важно, чтобы в метре не было нарушений? Это полезно для автоматической расстановки ударений — будет меньше ошибок со стороны машины.