Читать нас в Telegram
Иллюстрация: Надя Луценко

Что такое «гипотеза Поллианны»?

В 1969 году Дж. Баучер и Ч. Э. Осгуд представили и обосновали идею о том, что «люди склонны видеть (и обсуждать) светлую сторону жизни» [1]. Иными словами, люди склонны использовать оценочно-позитивные слова чаще и более разнообразно, чем оценочно-негативные. Эту тенденцию назвали «гипотезой Поллианны», иногда ее еще называют «принципом Поллианны». Название термина происходит от романа «Поллианна» Элинор Портер, опубликованного в 1913 году, главная героиня которого, Поллианна, — жизнерадостная сирота, которая пытается найти что-то хорошее в любой ситуации.

Спустя несколько десятилетий, в течение которых было совершенно много технологических прорывов, особенно в области компьютерной лингвистики и машинного обучения, исследователи решили проверить гипотезу уже с помощью цифровых методов. Таким образом, П. Ш. Доддс и др. представили обширные кросс-культурные данные, полученные в ходе анализа тональности многоязычных текстовых корпусов, которые подтверждали «гипотезу Поллианны» [2]. В таком же ключе К. Грин обнаружил намеки на склонность к позитивности (англ. positivity bias). Проанализировав собственный Корпус канонов западной литературы, он сделал вывод о том, что, хотя ведущие темы и мотивы в канонической литературе от Гомера до Хемингуэя — смерть, война, душевные травмы и трагедия человеческой жизни, в целом произведения западного канона смотрят на историю в позитивном ключе [3].

«Принцип Поллианны» и детская литература

Если, как оказалось, естественный язык обладает склонностью к позитивности и «принцип Поллианны» подтвердился на большом корпусе, верно ли, что детская и юношеская литература также будет демонстрировать «принцип Поллианны»? Чтобы выяснить это, Артур М. Джейкобс и другие авторы статьи Sentiment Analysis of Children and Youth Literature: Is There a Pollyanna Effect? провели целое исследование с помощью сентимент-анализа (иногда его еще называют анализом тональности) [5]. А если вам интересно больше узнать про сентимент-анализ и вы хотите сами попробовать его провести с помощью Python и нейросети RuBERT, а также узнать, как визуализировать полученные результаты, читайте наш гайд [6].

В качестве данных для исследования авторы взяли 372 англоязычные и 500 немецкоязычных книг, относящихся к детской и юношеской литературе, а также дополнительно они решили проанализировать сиквел «Поллианны» Э. Портер Pollyanna Grows Up. Англоязычный корпус содержит произведения, опубликованные только до 1952 года. Немецкий корпус, напротив, разнообразнее и охватывает больший временной период. Он содержит и послевоенные книги, и все части серии книг о Гарри Поттере, а также множество переводов всемирно известных писателей: например, в корпусе есть произведения Антуана де Сент-Экзюпери и Александра Дюма.

В качестве инструмента для исследования был выбран SentiArt. Многие другие инструменты используют списки слов, основанные на ручной оценке валентности, SentiArt же основан на векторной модели (VSM). Для предсказания оценки авторы используют функцию AAP (affective-aesthetic potential), психолингвистическую меру слова, которая должна отражать красоту слов. Можно сказать, что среднее значение AAP предсказывает, насколько приятным для читателя будет текст [4]. В теории высокие значения AAP указывают на высокий потенциал слова или даже текста вызвать положительные эмоции.

Кроме функции AAP, авторы статьи также выбрали шесть эмоций и чувств (гнев, отвращение, страх, счастье, грусть и удивление), чтобы высчитать их с помощью векторной модели [7]. Так, например, оценка того, насколько предложение «грустное», рассчитывается, исходя из средней семантической связи между каждым содержательным словом и словом «грусть», а для определения семантической связи авторы смотрели на косинус между векторами, то есть на косинусную близость [8].

Кросс-валидация и сентимент-анализ сиквела «Поллианны»

Авторы статьи решили проверить, насколько их метод лучше, чем другой метод сентимент-анализа, основанный на использовании списка слов. У этого подхода есть свои ограничения, например, составление словарей является довольно трудоемким и времязатратным процессом, и один такой составленный словарь может не справиться на других данных. Авторы провели кросс-валидацию, то есть оценили работу модели и ее поведение на других данных. В результате проверки исследователи убедились, что использование векторных моделей для сентимент-анализа все же эффективнее, чем список слов.

Результат кросс-валидации. Оценка валентности слова в зависимости от AAP

Как уже говорилось выше, Артур М. Джейкобс и др. решили также провести отдельный сентимент-анализ сиквела «Поллианны»: подтверждает ли «гипотезу Поллианны» книга, главная героиня которой стала ее символом? Согласно данным, полученным благодаря функции AAP, ответ — да, подтверждает. Судя также по облаку слов на Рис. А, содержание Pollyanna Grows Up более позитивное, чем негативное. Облако обобщает данные по 1000 самых позитивных и по 1000 самых негативных слов в произведении, и, по словам исследователей, позитивные слова (например, lovely, happy) явно преобладают над негативными (cry, hurt).

Рисунок А. Облако слов

Более подробные доказательства, свидетельствующие о том, что «принцип Поллианны» подтверждается, приведены на Рис. B и C. Тот факт, что большая часть площади сглаженной кривой на Рис. В находится выше нуля, указывает на общий положительный показатель функции AAP.

Рисунок B. Эмоциональный (повествовательный) временной ряд. Синяя кривая показывает сглаженное среднее значение, красная пунктирная линия — нулевую границу

Рис. С подтверждает смещение в сторону положительности с помощью данных гистограммы, показывающих среднее значение AAP, примерно равное 0,4.

Рисунок С. распределение AAP для Pollyanna Grows Up

А что же в итоге с корпусами?

После того, как авторы исследования проверили свой подход на других данных и получили хорошие результаты, они провели сентимент-анализ англоязычного и немецкоязычного корпусов детской и юношеской литературы. Исследователи также высчитали различные текстовые признаки, например, среднее количество предложений в книге или среднее количество букв в слове. Так, можно увидеть, что в целом англоязычные книги длиннее, чем немецкоязычные.

Результаты сентимент-анализа

Результаты сентимент-анализа показали, что книги в англоязычном корпусе в целом соответствуют «принципу Поллианны» и демонстрируют более позитивные результаты для всех значений AAP. Если посмотреть на соотношение положительных и отрицательных слов в предложении (PNP в таблице), то можно увидеть, что в среднем в предложениях превалирует позитивно окрашенная лексика. Среди эмоций и чувств в корпусе преобладают удивление, страх и счастье, на второй план отходят печаль, гнев и отвращение.

Как и в англоязычном корпусе, книги в немецкоязычном корпусе тоже соответствуют «принципу Поллианны». Здесь также есть смещение в сторону положительности, а значение PNP указывает на преобладание положительных слов в предложениях. Схожи корпуса и в том, какие чувства и эмоции превалируют в книгах: в немецкоязычном корпусе точно такие же результаты (удивление, страх и счастье). Однако стоит помнить о том, что англоязычный корпус не такой разнообразный и репрезентативный, как немецкоязычный, поэтому не совсем корректно их сопоставлять.

Основываясь на результатах сентимент-анализа и полученных данных, авторы статьи выдвинули следующие гипотезы: 1) англоязычный корпус имеет более выраженный позитивный уклон, чем немецкоязычный; 2) в немецкоязычном корпусе существует тенденция снижения склонности к позитивности — чем произведение современнее, тем меньше там выражена позитивность.

В целом можно однозначно сказать, что читатели книг из обоих корпусов с большей вероятностью испытывают положительные эмоции, связанные с удивлением, чем негативные, связанные с чувством отвращения. Они также сталкиваются с высокой вероятностью возникновения мыслей или чувств, ассоциированных со страхом.

Выводы

Результаты сентимент-анализа, полученные авторами статьи, показывают, что международная классическая и современная детская и юношеская литература в целом демонстрирует «принцип Поллианны». В обоих корпусах, несмотря на их различия (например, в англоязычном корпусе только 19 авторов, а в немецкоязычном их больше 200), явно прослеживается склонность к позитивности.

Источники

  1. Boucher, J., & Osgood, C. E. (1969). The Pollyanna hypothesis. Journal of Verbal Learning & Verbal Behavior, 8(1), 1–8. https://doi.org/10.1016/S0022-5371(69)80002-2.
  2. Dodds P. S., Clark E. M., Desu S., Frank M. R., Reagan A. J., Williams J. R., Mitchell L., Harris K. D., Kloumann I. M., Bagrow J. P., Megerdoomian K., McMahon M. T., Tivnan B. F., Danforth C. M. Human language reveals a universal positivity bias. Proc Natl Acad Sci U S A. 2015 Feb 24;112(8):2389-94. doi: 10.1073/pnas.1411678112. Epub 2015 Feb 9. PMID: 25675475; PMCID: PMC4345622. URL: https://pubmed.ncbi.nlm.nih.gov/25675475/ (accessed 2025-02-02).
  3. Green, Clarence. (2017). Introducing the Corpus of the Canon of Western Literature : A corpus for culturomics and stylistics. Language and Literature. 26. 282–299. 10.1177/0963947017718996. URL: https://www.researchgate.net/publication/321773386_Introducing_the_Corpus_of_the_Canon_of_Western_Literature_A_corpus_for_culturomics_and_stylistics (accessed 2025-02-02).
  4. Jacobs, Arthur M. / Kinder, Annette (2020): «Computing the affective-aesthetic potential of literary texts». URL: https://www.mdpi.com/2673-2688/1/1/2 (accessed 2025-02-02).
  5. Jacobs, A. M., Herrmann, B., Lauer, G., Lüdtke, J., & Schroeder, S. (2020). Sentiment analysis of children and youth literature: Is there a Pollyanna effect? Frontiers in Psychology, 11, Article 574746. https://doi.org/10.3389/fpsyg.2020.574746 (accessed 2025-02-02).
  6. Системный Блокъ. «Как провести анализ тональности текста».
  7. Системный Блокъ. «Что такое векторное представление слов?»
  8. Системный Блокъ. «Что такое косинусная близость?»