Читать нас в Telegram
Иллюстрация: Надя Луценко

Помните тест Нейросеть vs Стихи.ру? Тексты последнего пополнили акцентологический корпус НКРЯ.

Акцентологический корпус — что это?

В Национальном корпусе русского языка (НКРЯ) помимо основного есть специфические подкорпуса, например, акцентологический. Он создан для исследования русского ударения. В нём есть разные тексты, в частности, те, что входят и в поэтический корпус (XVIII–XXI вв.). Последние полезны тем, что ударение в них проставляется на этапе разметки метра. Иными словами, после определения размера стихотворения место падения ударения становится более очевидным, а это позволяет избежать проверки каждого слова в отдельности (ускорить и автоматизировать процесс).

Подробнее об акцентологическом корпусе можно почитать тут.

Наивная поэзия

Стихи.ру — старейший русскоязычный сайт, на котором могут публиковаться наивные (непрофессиональные) поэты. Их произведения не проходят специальной редактуры и находятся в открытом доступе. По этой причине наивные стихи не могут быть включены в поэтический корпус НКРЯ: в него входят только культурно значимые и отобранные профессионалами тексты.

Тем не менее у наивной поэзии есть очень важная для акцентологического корпуса особенность — ориентация на школьные стихи: авторы-любители зачастую создают нечто похожее на то, что проходят на уроках литературы. Благодаря этому в большинстве текстов чередуются определённым образом ударные и безударные слоги (то есть преобладает силлабо-тоническое стихосложение). Получается, автоматически предсказывать ударение для таких текстов должно быть ещё более удобно, чем для тех, которые входят в поэтический корпус (так как в первых использованы совсем простые размеры). Для этой цели авторы источника использовали машинное обучение. Полученные ими данные существенно пополнили акцентологический корпус.

Пример стихотворения с сайта Стихи.ру в акцентологическом подкорпусе НКРЯ

Как пополнить корпус любительскими стихами

Учёным понадобилась локальная копия Стихов.ру, из которой они выбрали две коллекции текстов: одну случайно, другую — специальным образом. Для неё нужно было посчитать процент совпадения цепочек из двух слов (биграмм) между текстом с сайта и из поэтического корпуса. Пригодились только те произведения, у которых этот процент был не менее 60. Исследователи выдвинули гипотезу: если процент высок, то в выборку попадёт больше текстов с правильными двух- или трёхсложными размерами (не забываем про ориентацию на школьную программу)*. О её проверке расскажем ниже.

После отбора произведений использовали программу Ю. Г. Зеленкова, позволяющую определить метр и клаузулу (конец стиха) и разбить текст на стопы (сочетания слога, на которое падает ритмическое ударение, с безударными). 

Принцип расстановки ударений

Существует предположение о том, что буквы в конце слова и его грамматические свойства (в частности, место падения ударения) связаны. Взглянем на список:

*вольнослу`шательницами
свиде`тельницами
лжесвиде`тельницами
благоде`тельницами
избави`тельницами
прави`тельницами
состави`тельницами
вдохнови`тельницами
усынови`тельницами
покрови`тельницами
заяви`тельницами
победи`тельницами
руководи`тельницами
сопроводи`тельницами
роди`тельницами
распоряди`тельницами
жи`тельницами
скази`тельницами
проси`тельницами
искуси`тельницами
соврати`тельницами
посети`тельницами
похити`тельницами
укроти`тельницами
учи`тельницами
утеши`тельницами
прия`тельницами
настоя`тельницами
ва`фельницами
*отше`льницами
Таблица 1 из источника[1] — фрагмент списка 150 слов с проставленными ударениями. Акцент делается на том, что они везде стоят одинаково (кроме слов под знаком «*»). Слова со звёздочкой и без различаются лишь буквами в конце

Во всех словах, кроме помеченных звёздочками, буквы в конце и место, куда падает ударение, одинаковы. Получается, что вместо длинного списка, можно записать только одно слово, которое будет отражать свойства целого класса. Это будет выглядеть вот так:

*вольнослу`шательницами
свиде`тельницами
* отше`льницами
Таблица 2 из источника[1]. Вместо множества слов с одинаково падающим ударением указано лишь одно как представитель всего класса

Специально обученная программа сама расставляет ударения на основе выявленных классов. Более подробно об анализе стихотворений можно почитать в самой статье.

Ещё одна особенность наивной поэзии

В некоторых текстах силлабо-тоническое стихосложение нарушалось. Исследователи пришли к выводу, что это объясняется не переменой размера внутри одного стихотворения, а простыми ошибками. Для таких случаев ввели аббревиатуру «НУР» — неурегулированный размер. Учёные не стали пополнять корпус текстами, в которых больше 30% строк содержали нарушения метра.

Выше говорилось о гипотезе: если текст любительского стихотворения совпадает по биграммам на 60% и более с произведениями из поэтического корпуса, то в нём будет лучше выдержана силлабо-тоника, чем в текстах, отобранных случайным образом. Однако полученные данные опровергают эту гипотезу — она не прошла статистические тесты. И в первой коллекции текстов, и во второй наблюдаются нарушения.

Наборы данныхСтрокиНУР
12 186 617211 244
21 461 562118 972
Таблица 3 из источника[1]. НУР — строки стихотворений, для которых не удалось установить принадлежность к силлабо-тоническому сложению

Результат

После пополнения из stihi.ru акцентологический корпус содержит более чем 160 тыс. стихотворений. Поскольку большинство стихотворений написаны распространёнными и регулярными метрами, это  помогло добиться высокой точности автоматической разметки  ударения. А в корпусе стало ещё больше текстов, отражающих реальное использование языка его носителями.

Источники


* Почему важно, чтобы в метре не было нарушений? Это полезно для автоматической расстановки ударений — будет меньше ошибок со стороны машины.