Составители корпуса из Лаборатории цифровых исследований литературы и фольклора ИРЛИ РАН унифицировали имена файлов, промаркировали конец каждого абзаца, привели тексты в соответствие с новой орфографией и внесли другие изменения.
Впервые корпус нарративной прозы XIX века был опубликован в декабре 2020 года в Репозитории открытых данных по русской литературе и фольклору. Основой этого корпуса стала выборка из 500 произведений XIX века, написанных на русском языке и находящихся в открытом доступе. Эту подборку сделал Олег Собчук для своей работы об эволюции диалогов в русскоязычной нарративной прозе.
В датасет вошли романы и повести 1830—1900 годов, причём не только ставшие классикой, но и бывшие популярными в то время и малоизвестные в наши дни. Помимо самих художественных текстов читателям корпуса доступны и метаданные: годы жизни и псевдонимы авторов произведений, сведения о первых публикациях, а также библиографическая информация о печатных изданиях, с которых были сделаны цифровые копии.
Репозиторий открытых данных по русской литературе и фольклору ИРЛИ РАН создан для того, чтобы расширить количественные исследования в литературоведении и сделать полученные данные более доступными. В репозитории можно найти не только «Корпус нарративной прозы XIX века», но и другие датасеты, например «Корпус “русской песни” 1800—1840-х гг.», «Корпус русской прозы для детей и юношества» или базу данных «Стилеметрические данные “Тихого Дона” и современной ему прозы».
Источник: Корпус нарративной прозы XIX в.