Что влияет на распределение содержательных слов в тексте сильнее: литературная традиция или внешние факторы? Кирилл Маслинский, исследователь литературы, сотрудник Пушкинского дома и создатель Деткорпуса, изучает процесс создания контента. Он использует модель роста словаря, чтобы оценить разнообразие концептов семантической области «животные» в разных жанрах детской литературы, и вычисляет, какие животные вероятнее встретятся в каждом жанре. В ужастиках, конечно, на первом месте — змеи, а вот в научной фантастике частыми гостями неожиданно становятся морские обитатели. Расскажем о методе и результатах этого исследования.
Иллюстрация: Анастасия Феофанова
Исследование концептов в зависимости от жанра может приблизить нас к понимаю процессов создания произведения. Кирилл Маслинский стремится формально смоделировать, как происходит порождение текста.Опираясь на работы Бориса Ярхо (здесь можно кратко прочитать про его теорию), Маслинский вводит понятие доступности концепта — вероятности того, что этот концепт будет упомянут в произведении хотя бы один раз. Доступность зависит от двух факторов:
Доступность концепта нельзя наблюдать, но можно оценить на популяционном уровне, то есть через исследования текстов определённых жанров.
Кирилл Маслинский выдвигает два постулата:
Данные из коллекции ДетКорпуса, корпуса детской литературы, были разделены по жанрам:
animalistic — анималистическая проза XX века (вспоминаем хрестоматии с рассказами о животных);
detective — детский, подростковый детектив;
horror — детские, подростковые ужастики;
fantasy — научная фантастика и фэнтези;
love — любовная повесть;
skazka — литературная (авторская) сказка;
realism — нежанровая проза или всё то, что не вошло в жанры выше (условно — реализм).
Подход позволяет учитывать длину текста, поэтому в выборку вошли тексты от 100 до 300 000 слов, относящиеся к периоду 1900–2020 гг.
Названия животных взяты из базы данных wikidata.org. Всего в словарь вошло 1906 упоминаний. Также был сформирован стоп-лист, потому что многие животные названы метафорически. В исходном датасете часто не хватало слов для обозначения детенышей, диминутивов (уменьшительных наименований, например, воробышек) и феминитивов (наименования самок).
Количество встречающихся в тексте животных — часть вокабуляра, то есть лексикона этого текста, и тогда задача исследователя — оценить лексическое разнообразие. Возникает проблема с длиной текста: чем длиннее текст, тем больше в нём разных слов. Как же тогда сравнивать разнообразие в текстах разной длины?
Для этого можно использовать модель роста словаря, которая описывает, как размер вокабуляра зависит от длины текста. Эту модель также называют законом Хипса, и выражается математически он так:
V = kgTb , где:
V — объём лексикона,
T — длина текста в словах,
kg, b — параметры, характеризующие динамику роста лексикона.
Коэффициент b обычно выражен дробным числом. Например, если b = 0,5, то берётся корень из длины текста. По мере роста длины текста уменьшается прибавление в лексиконе (сравните √100 = 10 и √200 ~ 14, то есть если на 100 слов приходится 10 новых слов, с последующими 100 словами новых из них будет только 4). Коэффициент b влияет на скорость роста лексиона.
Коэффициент k можно интерпретировать как коэффициент доступности. Он зависит от жанра. Чем больше k, тем больше лексикон.
Однако эту модель нужно скорректировать, потому что жанры различаются долей текстов, где животных больше. На итоговый список животных влияют два процесса:
С учётом двух процессов модель роста лексикона будет выглядеть так:
V = pgk1Tb + (1 — pg)k2Tb, где:
pg — доля текстов в жанре g, порождённых специфическим процессом,
1 — pg — доля текстов в жанре g, порождённых фоновым процессом,
k1, k2 — интенсивность фонового и специфического процессов.
Идея о двух источниках порождения текста может быть преобразована в сильно ограниченную тематическую модель (про тематические моделирование можно почитать здесь). Предполагается, что каждый документ имеет всего две темы: одну, специфичную для жанра текста, и другую, порождённую фоном. В результате у каждого жанра есть своя преобладающая «тема». Вероятность появления слова в темах отражает предпочтение (более высокую доступность) некоторого животного для определённого жанра.
В результате получаем вот такой график:
Этот график показывает процент текстов (pg), порождённых специфическим процессом (с богатым набором животных), в каждом жанре. Отображено среднее значение (точка) по всем документам определённого жанра и разброс («усы» вокруг точки), включающий 89% данных
Анималистическая проза, очевидно, вырывается вперёд, в то время как в формульных жанрах (в любовной повести и детективе) лексика по теме «животные» неразнообразна.
Такая модель роста лексикона позволяет выявить тексты с приёмами, генерирующими лексическое разнообразие. Это можно изучать дополнительно. Таким способом, например, выделяются тексты с кумулятивным сюжетом, в которых животные «накапливаются», появляются один за другим.
Кажется, что жанры должны различаться набором животных, или по меньшей мере предпочитать одних животных другим. Но оказалось, что жанровые списки очень сильно пересекаются. Чаще всего упоминаются животные, имеющие значение в хозяйстве или в культуре.
На этой диаграмме можно подробнее изучить основные паттерны:
Распределение самых популярных 20 лемм для каждого жанра
Большое количество птиц и лесных зверей в анималистической прозе появилось благодаря тому, что большинство авторов, писавших в этом жанре, были охотниками. Самые разнообразные животные по группам — в фэнтези и в любовной литературе. Домашние животные чаще встречаются в детективах и любовных повестях, вероятно, потому что действие происходит в городе. Реалистическая проза изобилует сельскохозяйственными животными. Выделяется и научная фантастика: там встречаются морские животные, амфибии и вымершие животные.
«Лучше пешком», — говорим мы себе летом и выбираем прогулки непривычными маршрутами. А если путь не знаком — поможет приложение-навигатор.…
SpaceX, Anthropic и OpenAI готовятся стать публичными компаниями, Google и Microsoft выпустили новые модели — рассказываем, что произошло в мире…
Японская культура повседневности отличается вниманием к визуальной эстетике, типографике и деталям коммуникации. Поэтому даже самые обычные документы — билеты, рекламные…