Читать нас в Telegram

Яндекс Вордстат как способ измерить авторитет автора

Одним из интуитивных подходов кажется использование сервисов статистики поисковых запросов вроде Google Trends и Яндекс Вордстат. В теории, частота поисковых запросов, связанных с определенным текстом, могла бы служить индикатором общественного интереса и степени влияния произведения в литературной среде. Такой метод основывается на предположении, что пользователи «голосуют своим вниманием» за авторитетность текстов, вводя названия книг в поисковые системы.

Однако у описанного подхода есть существенные ограничения. Например, Яндекс Вордстат не объединяет различные запросы, относящиеся к одной теме, что затрудняет комплексный анализ. Кроме того, такие сервисы не позволяют определить, с какой целью пользователь искал, например “Войну и мир” – хотел ли он прочитать роман, посмотреть экранизацию или изучить критические разборы. Эти факторы делают подобный метод далеко не самым точным инструментом для измерения авторитетности литературных произведений. 

Война и мир – роман, краткое содержание, фильм. Что искал пользователь? Источник: «Яндекс Вордстат»

Тут же возникает более фундаментальный вопрос: что именно следует понимать под авторитетностью в литературе и как ее измерить? Популярность можно выразить в цифрах – количеством поисковых запросов, тиражами книг, кассовыми сборами экранизаций. Но авторитетность – это нечто более сложное. Авторитетный текст — это не просто популярная книга, а та, что формирует дискурс, задает вопросы и становится интеллектуальной опорой для новых поколений читателей.

Дорожная карта предпочтений

Хорошая мера авторитетности текста должна учитывать не только популярность произведения, но и распространение его идей, эстетическое влияние и способность формировать читательские предпочтения. Ведь часто мы ищем не просто известную книгу, а что-то созвучное духу любимого автора — например, “что-то похожее на Достоевского”.

Если бы существовала возможность отслеживать поведение читателей в книжных магазинах и библиотеках, фиксируя, какие книги они выбирают и в какой последовательности, можно было бы построить своеобразную “дорожную карту” литературы. Такая карта показывала бы вероятные маршруты читателей: например, после “На Западном фронте без перемен” Эриха Марии Ремарка человек берется за “Возвращение” и “Три товарища”, а затем, увлекшись творчеством писателей потерянного поколения, переходит к Эрнесту Хемингуэю.

В этой системе книги, к которым ведет множество значимых читательских троп, можно было бы считать наиболее авторитетными. Такие тексты не просто популярны в данный момент, но служат ключевыми ориентирами в литературном пространстве, связывая разные идеи, эпохи и художественные традиции. 

В наше время крупные компании собирают огромные объемы данных о поведении своих клиентов, и книжные магазины – не исключение. Если бы у нас была возможность получить информацию из баз данных этих магазинов и изучить поведение клиентов, выражающих свои читательские предпочтения и вкусы “кошельком”, посредством покупок, мы смогли бы построить эту “дорожную карту”. Однако доступ к таким данным ограничен, ведь они считаются коммерческой тайной. 

Но что, если я скажу вам, что мы в некотором смысле “видим” эти базы данных ежедневно? Причем, мы видим их как раз в форме, близкой к “дорожной карте”.

Рекомендации Wildberries к книге “Чума” Альбера Камю издательства АСТ

Рекомендательные системы! Фундамент бизнеса, связанного с продажами в Интернете, цель которого максимизировать вероятность наших дополнительных покупок, путем точечной и глубокой персонализированной выдачи похожих товаров.

Рекомендательная система подстраивается под каждого пользователя по отдельности, но если осуществлять поиск в режиме инкогнито и без файлов cookie алгоритм не будет знать о нас ничего и даст zero-shot рекомендацию, выведенную на основе предпочтений среднего пользователя. То, что надо! 

Вот, например, если мы захотим купить “Чуму” Альбера Камю, рекомендательная система предложит нам приобрести другие его произведения, а также “Тошноту” Жан-Поля Сартра и “Последний день приговоренного к смерти” Виктора Гюго – такие связи не лишены смысла.

Кстати, если закрыть браузер и повторить поисковый запрос, результаты останутся неизменными. Это говорит в пользу гипотезы о том, что zero-shot рекомендация не случайна, а формируется на основе общей закономерности.

Открываем черный ящик

Идея использования рекомендательных систем в DH-исследованиях описана в работе Эда Финна, посвященной изучению формирования культурного наследия Дэвида Фостера Уоллеса [1]. Исследователь использует выдачу рекомендательной системы Amazon и анализирует литературный рынок через нее, делая выводы о влиянии творчества писателя на современную литературу.

Используем Python и библиотеку request для сбора данных с Wildberries

Исследуем литературный ландшафт русскоязычного книжного рынка, сфокусировавшись на выдаче рекомендательной системы Wildberries и выделив ключевые авторитетные книги для читающих на русском языке. Для этого автоматизируем процесс сбора данных с помощью Python, используя библиотеку requests и запросы сайта к серверу, которые можно изучить во вкладке Network инструментов разработчика, доступных в любом браузере. С помощью requests обратимся к API маркетплейса, имитируя запрос от сайта, и получим список рекомендаций в удобном машиночитаемом виде.

В рамках исследования ограничимся продукцией издательства АСТ. Алгоритм сбора данных построим так, чтобы вызвать “цепную поисковую реакцию”. Начнем с анализа одного артикула, выделим книги издательства АСТ среди рекомендаций маркетплейса, добавим их как узлы в направленный граф и повторим подобное выделение рекомендаций для каждого из этих новых артикулов. Будем повторять операцию до тех пор, пока все книги из магазина издательства АСТ на Wildberries не окажутся в нашей базе данных.

Визуализируем граф по методу PageRank

Визуализируем полученный граф. Так как точек в этом графе очень много, отобразим только подграф с достаточно авторитетными в смысле PageRank вершинами, отсеив тексты, на которые почти не ссылается рекомендательная система. Разработанный основателями Google ещё на заре Интернета PageRank помогает определить важность вершин в графе на основе их связей с другими вершинами. Представьте, что каждая ссылка на вершину – это рекомендация: чем больше таких рекомендаций, особенно от авторитетных источников, тем выше “вес” страницы.

В графе издательства АСТ можно наблюдать три условных семантических кластера с плотными взаимными ссылками внутри них. Кластер русской художественной литературы, кластер иностранной художественный литературы и non-fiction кластер. 

Какие книги оказались самыми «авторитетными» с учетом zero-shot рекомендации?

Самыми авторитетными в смысле PageRank вершинами являются: “Ночь в Лиссабоне”, “На Западном фронте без перемен”, “Три товарища”, “Триумфальная арка”. Удивительно, но судя по всему, Эрих Мария Ремарк стал народным автором для русскоязычного читателя. В целом, это согласуется с личным наблюдением: почти все читали Ремарка и почти всем он понравился. Также значительный авторитет имеет текст “По ту сторону добра и зла” Фридриха Ницше и “Евгений Онегин”, энциклопедия русской жизни А.С. Пушкина.

Если судить по графу, связующим звеном между отечественной и иностранной литературой служат “Мастер и Маргарита”, соединяющиеся с не менее мистическим “Портретом Дориана Грея” и антиутопия “Мы”, открывающая дорогу в мир классических антиутопий, таких как “1984”, “Повелитель мух”, “Заводной апельсин” и “О дивный новый мир”. “Ночь в Лиссабоне” и “Спеши любить” через “Искусство любить” Эриха Фромма отправляют нас в кластер non-fiction произведений и философских трактатов.

Описанный метод построения рекомендательного графа представляет собой мощный инструмент для гуманитарных и социальных исследований. Он позволяет не только анализировать покупательское поведение, но и выявлять скрытые закономерности в ассоциациях, предпочтениях и наиболее вероятных, типичных “маршрутах” пользователей, на которых и обучена сама рекомендательная система.

Как еще можно применять графы в рекомендательных системах?

Рекомендательный граф может помочь понять, как люди осваивают новые знания. Например, можно рассмотреть, какие маршруты приводят пользователей к изучению философии. Начинают ли они с Древней Греции, приходят ли к философским текстам через религиозные книги или просто выбирают для чтения самых популярных мыслителей? Возможно проверить, выражена ли сегментация по философским школам. Например, есть ли явное разделение между теми, кто читает экзистенциалистов, аналитическую философию или восточные учения?

Потенциал использования графов рекомендаций ограничивается только фантазией исследователя и ассортиментами маркетплейсов, кроме книг включающих одежду, еду, товары для отдыха, спорта и многое другое. Так можно изучать моду и гастрономические предпочтения, рассматривая то, какая одежда или продукты покупаются вместе. Также возможно изучить изменение таких предпочтений, делая “оттиски” состояния рекомендательной системы с определенными временными промежутками, собирая данные, например, раз в месяц на протяжении года.

Граф отражает усредненную психологию потребительского поведения, а его математическая основа позволяет формализовать разрозненные данные. Методы теории графов, такие как выявление кластеров, анализ центральности и нахождение кратчайших путей, могут использоваться для выявления закономерностей и проверки гипотез.

С другой стороны, при построении таких графов важно учитывать, что рекомендательная система, включая ее реальные принципы работы и динамической настройки, остается для нас своего рода “черным ящиком”. Это означает, что команда разработчиков маркетплейса может внедрить в систему значимую априорную информацию – либо по внешнему запросу, либо исходя из стратегических интересов бизнеса. Например, алгоритм может искусственно понизить в рекомендательной выдаче произведения гипотетического автора, запятнавшего свою репутацию, чтобы избежать возможных репутационных рисков. Однако такие внешние корректировки вряд ли кардинально изменят общую картину выдачи, поскольку большое их количество попросту экономически невыгодно: нерелевантные рекомендации приведут к снижению пользовательской вовлеченности и, как следствие, к убыткам для компании.

Мы не до конца понимаем, как именно работает рекомендательная система. Даже для ее разработчиков, которые знают о принципах ее функционирования гораздо больше, она во многом остается “черным ящиком”. Это связано с тем, что современные рекомендательные системы часто основаны на сложных нейронных сетях, чьи внутренние механизмы остаются неинтерпретируемыми. 

Однако, несмотря на эту неопределенность, такие системы демонстрируют высокую практическую эффективность. Их способность предсказывать поведение и предпочтения пользователей позволяет использовать их выдачу для анализа интересов и вкусов общества, в том числе и для определения авторитетности литературных произведений.

Источники

1. Finn E. Becoming yourself: the afterlife of reception. – 2011.

На обложке: a bunch of cubes that are in the middle of a room by 愚木混株 cdd20