В 1996 году психолог Синтия Уиссел опубликовала статью «Traditional and Emotional Stylometric Analysis of the Songs of Beatles Paul McCartney and John Lennon», где она сравнила между собой песни Пола МакКартни и Джона Леннона при помощи методов традиционной и эмоциональной стилометрии.

Стоп, эмоциональная стилометрия?

Стилометрия часто использует в качестве минимальной единицы измерения слова. Из слова можно получить множество качеств, которые помогут нам с изучением текста: его длина, его частотность и т.д.

Одно из этих качеств — это его коннотация. Коннотацией мы называем значение, выраженное через небольшое количество параметров. Так, американский психолог Чарльз Осгуд считал, что для дифференцирования значений большинства слов нам хватает трех шкал: оценка, сила и активность. Вместе эти факторы описывают эмоцию человека по отношению к тому, что это слово обозначает.

У каждой шкалы есть две крайности. Так, у оценки это «плохой» и «хороший», у силы — это «сильный» и «слабый», а у активности — «активный» и «неактивный». Коннотации каждого слова вычисляются разными способами опрашивания информантов. Об одном из таких способов можно прочитать здесь.

Иногда можно обойтись и двумя шкалами для стилометрического исследования. Уиссел так и делает: из трех шкал она рассматривает только оценку и активность. Эти значения она взяла из своего же словаря.

Какого словаря? Эмоций?

По-английски этот словарь называется Dictionary of Affect. Внутри него находится список английских слов, каждому из которых даны значения на двух семибалльных шкалах: оценки и активности.
К примеру, слово delighted ‘восхищенный’ имеет значения 6.4 (оценка) и 4.2 (активность), а gloomy ‘угрюмый’ — 3.2 (оценка) и 2.4 (активность).
Такой словарь при анализе текста помогает нам ответить на вопросы, связанные с эмоциональным диапазоном автора: его стиль скорее веселый или грустный, злой или спокойный и т.д.

И как нам это поможет с Битлами?

В своей статье Уиссел пытается ответить на два вопроса:

  1. Действительно ли песни Джона более грустные, чем песни Пола?
  2. Как менялась эмоциональная составляющая песен Битлз на протяжении четырех стадий их творчества (1962-1964, 1965-1966, 1967-1968, 1969-1970)?
    Уиссел посчитала, какой процент наиболее приятных и наиболее активных слов (в топ 25% по оценке и активности соответственно) присутствует в их песнях на протяжении четырех периодов их творчества. Кроме того, она сконструировала из этих двух шкал еще четыре и тоже их подсчитала:
  3. «Радостность» (Cheerfulness) — наиболее приятные и наиболее активные
  4. «Гадкость» (Nastiness) — наименее приятные и наиболее активные
  5. «Мягкость» (Softness) — наиболее приятные и наименее активные
  6. «Грустность» (Sadness) — наименее приятные и наименее активные
    Оказалось, что МакКартни использовал значительно больше «приятных» слов, чем Леннон — на 2% больше (Джон — 5%, Пол — 7%). Леннон, с другой стороны, использовал больше «гадких», «мягких» и «грустных» слов. Получается, критики в основном были правы насчет разницы между их песнями.
    Также интересно, что со временем уменьшались доли «приятных», «активных» и «радостных» слов, но росли доли «гадких» и «мягких» слов. «Грустные» слова менялись наиболее непредсказуемо: сначала выросли, потом сократились, потом снова выросли.
Часть полученных результатов.
 Значок @ рядом с сокращением от McCartney означает, что разница значительна. Linear:а значит, что доля таких слов росла, Linear:d — убывала, Nonlinear — вела себя иначе.

Пол чаще повторял слова в своих песнях, а Джон чаще вставлял такие слова, как «girl» и «dead».

Со временем уменьшилась доля местоимений первого и второго лица (деперсонализация) и слова «love», что Уиссел интерпретирует как переход их творчества от любовных песен к композициям c менее приятным и активным нарративом.

Из этих результатов, кроме всего прочего, можно почерпнуть, что точки эмоционального перегиба в творчестве Леннона и МакКартни находятся между первой и второй (падают «приятность», «активность» и «радостность») и между третьей и четвертой стадией (вырастают «гадкость» и «мягкость»).

А кроме таблиц есть что-нибудь поинтереснее?

Для наглядной демонстрации результатов своих исследований Уиссел использовала т.н. часы эмоций. Выглядят они примерно так:

Это пространство с двумя осями — оценки и активности. Значения, которые проставляются в этой системе координат, не абсолютные: они нормализованы относительно корпуса из около 50 текстов, включающих в себя художественную литературу, эссе студентов, описания людьми их собственных эмоций.

Чем интенсивнее эмоции в тексте, тем вектор (т.е. расстояние от центра до точки, обозначающей текст) будет длиннее, а в зависимости от угла, который образует этот вектор, меняется и общее настроение текста. Для этого и нужна окружность, на которой обозначены различные эмоции.

Итак, вместе все песни Битлз оказываются более радостные, чем подобранный корпус. Что же будет, если расположить их песни по отдельности?

Несмотря на то, что весь набор их песен радостен, сами песни очень по-разному располагаются на часах: самой «депрессивной» оказывается песня Джона Леннона Nowhere Man, самой приятной — песня Пола Маккартни I’ll Follow the Sun.

Что нам говорят эти данные?

Сложно понять, насколько эти данные достоверны. Однако интересно, что субъективное мнение критиков, что песни Джона более грустные, как будто подтверждается методами эмоциональной стилометрии. Если два разных подхода к анализу текстов приходят к одному выводу, оба подхода становятся легитимнее, и поэтому, возможно, считает Уиссел, у эмоциональной стилометрии есть право на существование.

Еще один похожий пример — анализ песен группы Radiohead.

Также можно прочитать о сборе корпуса фольклора с эмоциональными аннотациями здесь.