Читать нас в Telegram
Иллюстрация: Анастасия Феофанова

Зачем это исследовать?

Исследование концептов в зависимости от жанра может приблизить нас к понимаю процессов создания произведения. Кирилл Маслинский стремится формально смоделировать, как происходит порождение текста.Опираясь на работы Бориса Ярхо (здесь можно кратко прочитать про его теорию), Маслинский вводит понятие доступности концепта — вероятности того, что этот концепт будет упомянут в произведении хотя бы один раз. Доступность зависит от двух факторов:

  • внутренние факторы, а именно литературная традиция: тематические и нарративные ограничения жанра, влиятельные образцы. Например, в сказках типичные герои-помощники — это лесные животные, так исторически сложилось (о структуре сказок писал В. Пропп);
  • внешние факторы, то есть все аспекты социализации автора. М. Пришвин был охотником, поэтому в его прозе встречается множество названий птиц.

Доступность концепта нельзя наблюдать, но можно оценить на популяционном уровне, то есть через исследования текстов определённых жанров.

Кирилл Маслинский выдвигает два постулата:

  1. появление животных в книгах, адресованных детям, во многом обусловлено литературной традицией;
  2. степень внимания к животным и их отбор будет зависеть от жанра.

Данные

Данные из коллекции ДетКорпуса, корпуса детской литературы, были разделены по жанрам: 

animalistic — анималистическая проза XX века (вспоминаем хрестоматии с рассказами о животных);

detective — детский, подростковый детектив;

horror — детские, подростковые ужастики;

fantasy — научная фантастика и фэнтези;

love — любовная повесть;

skazka — литературная (авторская) сказка;

realism — нежанровая проза или всё то, что не вошло в жанры выше (условно — реализм).

Подход позволяет учитывать длину текста, поэтому в выборку вошли тексты от 100 до 300 000 слов, относящиеся к периоду 1900–2020 гг.

Названия животных взяты из базы данных wikidata.org. Всего в словарь вошло 1906 упоминаний. Также был сформирован стоп-лист, потому что многие животные названы метафорически. В исходном датасете часто не хватало слов для обозначения детенышей, диминутивов (уменьшительных наименований, например, воробышек) и феминитивов (наименования самок).

Как оценить разнообразие животных

Количество встречающихся в тексте животных — часть вокабуляра, то есть лексикона этого текста, и тогда задача исследователя — оценить лексическое разнообразие. Возникает проблема с длиной текста: чем длиннее текст, тем больше в нём разных слов. Как же тогда сравнивать разнообразие в текстах разной длины? 

Для этого можно использовать модель роста словаря, которая описывает, как размер вокабуляра зависит от длины текста. Эту модель также называют законом Хипса, и выражается математически он так:

V = kgTb , где:

V — объём лексикона,

T — длина текста в словах,

kg, b — параметры, характеризующие динамику роста лексикона.

Коэффициент b обычно выражен дробным числом. Например, если b = 0,5, то берётся корень из длины текста. По мере роста длины текста уменьшается прибавление в лексиконе (сравните √100 = 10 и √200 ~ 14, то есть если на 100 слов приходится 10 новых слов, с последующими 100 словами новых из них будет только 4). Коэффициент b влияет на скорость роста лексиона.

Коэффициент k можно интерпретировать как коэффициент доступности. Он зависит от жанра. Чем больше k, тем больше лексикон.

Однако эту модель нужно скорректировать, потому что жанры различаются долей текстов, где животных больше. На итоговый список животных влияют два процесса:

  • фоновый процесс, то есть когда упоминания животных возникают как литературный «‎реквизит»‎ или часть общего культурно-языкового фона. Например, в сказке про Снегурочку‎ может упоминаться кошка, домашний скот, но сама сказка не про животных;
  • специфический процесс, в рамках которого животные — действующие лица или важный предмет изображения. Вспоминаем сказки «‎‎Теремок»‎, «Колобок» и многие другие.

С учётом двух процессов модель роста лексикона будет выглядеть так:

V = pgk1Tb + (1 — pg)k2Tb, где:

pg — доля текстов в жанре g, порождённых специфическим процессом,

1 — pg — доля текстов в жанре g, порождённых фоновым процессом,

k1, k2 — интенсивность фонового и специфического процессов.

Идея о двух источниках порождения текста может быть преобразована в сильно ограниченную тематическую модель (про тематические моделирование можно почитать здесь). Предполагается, что каждый документ имеет всего две темы: одну, специфичную для жанра текста, и другую, порождённую фоном. В результате у каждого жанра есть своя преобладающая «тема». Вероятность появления слова в темах отражает предпочтение (более высокую доступность) некоторого животного для определённого жанра.

В результате получаем вот такой график:

Этот график показывает процент текстов (pg), порождённых специфическим процессом (с богатым набором животных), в каждом жанре. Отображено среднее значение (точка) по всем документам определённого жанра и разброс («усы» вокруг точки), включающий 89% данных

Анималистическая проза, очевидно, вырывается вперёд, в то время как в формульных жанрах (в любовной повести и детективе) лексика по теме «‎животные» неразнообразна‎‎. 

Такая модель роста лексикона позволяет выявить тексты с приёмами, генерирующими лексическое разнообразие. Это можно изучать дополнительно. Таким способом, например, выделяются тексты с кумулятивным сюжетом, в которых животные «‎накапливаются»‎, появляются один за другим. 

Какова вероятность, что животное встретится в тексте определённого жанра? 

Кажется, что жанры должны различаться набором животных, или по меньшей мере предпочитать одних животных другим. Но оказалось, что жанровые списки очень сильно пересекаются. Чаще всего упоминаются животные, имеющие значение в хозяйстве или в культуре.

На этой диаграмме можно подробнее изучить основные паттерны:

Распределение самых популярных 20 лемм для каждого жанра

Большое количество птиц и лесных зверей в анималистической прозе появилось благодаря тому, что большинство авторов, писавших в этом жанре, были охотниками. Самые разнообразные животные по группам — в фэнтези и в любовной литературе. Домашние животные чаще встречаются в детективах и любовных повестях, вероятно, потому что действие происходит в городе. Реалистическая проза изобилует сельскохозяйственными животными. Выделяется и научная фантастика: там встречаются морские животные, амфибии и вымершие животные.

Источники

  1. Maslinsky K. How Exactly does Literary Content Depend on Genre? A Case Study of Animals in Children’s Literature // Proceedings of the Computational Humanities Research Conference 2023. 2023. С. 178–190.
  2. Маслинский К. А. Пленарный доклад «‎Лексический профиль жанра: на пути к формальной модели»‎ // YouTube URL: https://www.youtube.com/watch?v=U9lTRHvttRI (дата обращения: 12.05.2024).
  3. Маслинский К., Лекаревич Е., Алейник Л. Корпус русской прозы для детей и юношества // Репозиторий открытых данных по русской литературе и фольклору, 2021. Версия V1. https://doi.org/10.31860/openlit-2021.4-C001.