Читать нас в Telegram

Поэтический корпус — это электронная коллекция стихотворных текстов. Поэтический корпус от корпуса прозаических текстов отличается наличием стиховедческой разметки, отражающей формальные показатели стиха: метрику, рифму, строфику. Общеизвестных доступных корпусов с такой разметкой четыре: поэтический подкорпус Национального корпуса русского языка (НКРЯ), а также Башкирский, Чешский и Персидский поэтические корпуса.

На базе поэтических корпусов проводятся количественные стиховедческие исследования, например, исследование семантического ореола метра, акцентологические исследования (исследования ударения), ставятся эксперименты по автоматическому определению авторства или изучается творчество отдельных поэтов. Есть и отдельные «мета-научные» статьи о том, для каких целей вообще можно использовать корпус:

Сичинава Д. В. Поэтический подкорпус Национального корпуса русского языка: несколько примеров поиска стиховедческой информации
Орехов Б. В. Еще раз об исследовательском потенциале поэтического корпуса: метр, лексика, формула
Корчагин К. М. Зачем нужен поэтический корпус и как его использовать

Поэтический подкорпус НКРЯ

Поэтический корпус в составе Национального корпуса русского языка — первый в истории поэтический корпус. Создатели НКРЯ с самого начала понимали, что в составе корпуса должен присутствовать представительный массив поэтических текстов на русском языке. Поэтому в феврале 2006 года началась работа над поэтическим корпусом, а для общего пользования он стал доступен уже в декабре того же года.

Работа по созданию корпуса русских поэтических текстов осуществлялась группой ученых из Института русского языка РАН под руководством В. А. Плунгяна. Нужно было разработать принципы разметки поэтических текстов и разметить их.

На данный момент объем корпуса — 89 124 текстов, 12 407 747 слов. В корпусе представлен 951 автор. Список авторов, чьи тексты вошли в корпус, можно посмотреть на специальной страничке на сайте НКРЯ.
Источники текстов для корпуса — крупные электронные академические библиотеки: «Русская виртуальная библиотека» и «Фундаментальная электронная библиотека». Также большой вклад внесло издательство П. М. Нерлера «Академический проект».
Как отмечает Б.В. Орехов, на состав корпуса повлияла методология создания выборки, которой пользовался в своей работе стиховед М.Л. Гаспаров — крупнейший исследователь связи стихотворного метра с семантикой стихотворения и важная фигура в ряду «предтеч» Digital Humanities. М.Л. Гаспаров в стиховедческих работах ориентировался на серию «Библиотека поэта». Корпус в первую очередь стремился вобрать в себя авторов, которые печатались в этой серии.

Стиховедческая разметка поэтического подкорпуса НКРЯ включает метр, строфику, клаузулы и другие параметры. Помимо стиховедческой в поэтическом подкорпусе есть морфологическая и метатекстовая разметка (автор, дата создания, жанр). По метру, строфике, клаузуле и другим признакам можно искать информацию и задавать подкорпус. Те, кто неуверенно себя чувствуют в стиховедческой терминологии, могут воспользоваться терминологическим указателем, по которому можно искать определения сложных слов (например, гекзаметр, ноэль, тактовик).
В подкорпусе доступны полные тексты всех произведений. Напрямую из корпуса их скачать нельзя, но можно написать несложную программу для скачивания текстов самостоятельно.

На базе подкорпуса создан словарь сочетаемости, о котором Системному Блоку рассказывали сами создатели. Исследования на материале подкорпуса представлены в сборниках Корпусный анализ русского стиха (2013, 2014)

Башкирский поэтический корпус

Вторым поэтическим корпусом в мире стал Башкирский, созданный в октябре 2013 года Б.В. Ореховым при консультативной поддержке упомянутого выше В.А. Плунгяна. Над этим корпусом работали сотрудники ныне не существующей Лаборатории компьютерной филологии Башкирского государственного университета. Техническую помощь Башкирскому корпусу оказывал Т. А. Архангельский. Для грамматического разбора словоформ Б. В. Орехов и А. А. Галлямов разработали систему автоматического морфологического анализа Bashmorph. Оцифровкой, вычитыванием и разметкой текстов занимались А. А. Галлямов и частично — З. Ш. Цыганова. Также для поиска словоформ по базе была адаптирована поисковая система Восточноармянского национального корпуса, созданная компанией Corpus Technologies. Сайт корпуса доступен на башкирском, английском и русском языках.

Объём Башкирского поэтического корпуса составляет более 1,8 миллионов слов. Коллекция текстов состоит из произведений 103 башкирских поэтов XX и начала XXI века. Авторские права на использованные стихотворения остаются за поэтами.

В Башкирском корпусе есть возможность задавать корпус отдельного автора. Для этого необходимо на главной страницы корпуса внизу нажать кнопку «Подкорпус», далее перейти в раздел «Авторы». Перед вами будет окно с полным списком авторов. Если поставить галочку перед нужным вам автором, корпус выдаст его тексты.

Тексты в корпусе снабжены морфологической разметкой и стиховедческой разметкой, которая позволяет осуществлять поиск в строках, написанных определенным метром, в зоне рифмовки и т. д.

Башкирский поэтический корпус является источником исследовательской информации не только о башкирском стихе, но и о башкирском языке в целом. Корпус поддерживает два вида поиска — лексический и грамматический, можно искать как само слово, так и формы по определенным грамматическим признакам.

На материале корпуса проводятся количественные исследования башкирского стиха, например, исследование метра отрезка длиннее строки или всестороннее исследование системы стихосложения в XX веке.

Чешский поэтический корпус

Первый этап работы над Корпусом чешского стиха завершился в конце 2013 года, вскоре после появления Башкирского корпуса. Над корпусом работают исследователи из «Группы чешского стиха», куда входят сотрудники различных отделов Института чешской литературы. С лемматизацией и морфологическая разметкой создателям корпуса помогали сотрудники Института теоретической и компьютерной лингвистики Философского факультета и Института формальной и прикладной лингвистики Математико-физического факультета Карлова университета.

Каждой словоформе в корпусе присвоена начальная форма данного слова, фонетическая транскрипция и грамматические категории; для каждого стиха определены метр, число стоп, тип клаузулы и метрическая схема. Поэтому задав параметры, сможете узнать нужную вам информацию по словоформе.

На данный момент в корпусе чешского стиха собраны тексты чешских поэтов XIX — начала XX веков, и его объем более 14,6 миллионов слов. Источником для него послужила Чешская электронная библиотека. На основе корпуса создано несколько самостоятельных проектов — базы данных, частотные словари, а также приложение «Эвфонометр». Эвфония — это учение о благозвучии, раздел поэтики, изучающий в стихе качественную сторону речевых звуков, накладывающих известную эмоциональную окраску на художественное произведение. С помощью Эвфонометра, созданного на основе разработок Габриэля Альтмана, можно вычислить степень благозвучия любого поэтического текста в Корпусе.

Состав корпуса чешского стиха

На сайте чешского поэтического корпуса в свободном доступе представлен список исследований и материалов, в которые входят статьи, резюме, презентации и графика. Сайт доступен на чешском, английском и русском языках.

Персидский поэтический корпус

Персидский поэтический корпус — самый свежий из четырех. Он был опубликован весной 2020 года и строился по той же модели, что и все предыдущие инициативы: поэтический подкорпус НКРЯ, башкирский корпус, чешский корпус.

Персидский поэтический корпус содержит тексты классической персидской поэзии IX-XVII веков в объеме 4,3 млн. словоупотреблений (это 16 842 произведения или 330 723 бейта — так называется минимальная строфическая единица тюркской и персидской поэзии). Тексты морфологически размечены, доступен поиск по словам в позиции редифа и рифмы, часть текстов размечена метрически.

Заключение

Поэтические корпуса — это культурное достояние и важный источник, содержащий информацию о национальной поэзии и языке конкретного временного периода. Над созданием таких проектов всегда работает большой коллектив разных специалистов — лингвистов, стиховедов, программистов, а поддержку осуществляют крупные научные институты.

Источники