Читать нас в Telegram
Иллюстратор: Анна Андреева

Ретвит мировой истории

Коллективная память — единое для участников определенной социальной группы представление о событиях прошлого. Впервые это понятие в 1925 году вводит французский социолог Морис Хальбвакс, и с тех пор поле деятельности исследователей в этой области только расширяется.

Опираясь на нейрологию, в 80-90-х гг. ХХ века этот феномен изучала Алейда Ассман. Она показала, что коллективная память — феномен, для работы с которым недостаточно инструментария исторической науки и социологии.

В начале 80-х годов Пьер Нора вводит понятие «места памяти». Для изучения мест памяти Нора обращается к произведениям искусства, которые содержат информацию о событии, человеке или идее.

Сегодня весьма важным источником информации об обществе стали социальные сети. Платформы для микроблоггинга врде Twitter позволяют изучать роль истории в общественной жизни — тех самых особых форм «присутствия прошлого». Однако исследований в сфере публичной истории и коллективной памяти на их основе пока немного. Ученые из Люксембургского центра современной цифровой истории, Токийского столичного университета и Киотского университета предложили исследовать восприятие истории Twitter.

Сбор данных

Исследователи работали с англоязычными твитами за март 2016 — февраль 2017, отобранными по специальному списку хэштегов (от #onthisday до #HistoryTeacher). Ученые пытались понять, каково отношение пользователей Twitter к истории и какие события и исторические личности они считают ключевыми.

Твитов было собрано около 1 миллиона. На их основании ученые пытались определить популярность исторической личности или события, которым посвящен хэштег, а заодно привязать его к временной школе.

Если популярность можно высчитать по частоте употребления определенного тега разными пользователями, то определить временные рамки оказалось чуть сложнее: они могли быть явными и содержали точное указание года или даже даты события, а могли быть относительными («yesterday», «two years ago» и т.д.). Все относительные (неявные) временные выражения были конвертированы в явные (абсолютные) при помощи временного таггера Heideltime с возможностью обработки твитов. он извлекает извлекает временные выражения и нормализует их согласно стандарту аннотаций TIMEX3.

#100лет

В первую очередь анализировались годы и исторические периоды, которые чаще всего интересуют пользователей. Все маркеры времени в твитах были визуализированы на «кривой воспоминаний». Кривая отражала степень коллективного внимания к разным периодам истории.

Больше всего твитов и ретвитов посвящено событиям 1916, 1941, 1945 и 2016 годов.

Из графика можно сделать вывод о том, что наибольший интерес представляют события сравнительно недавнего прошлого, произошедшие за последние 50 лет. Можно предположить, что людям они более понятны, близки, явно повлияли на их жизнь и на жизнь их близких. Исключением являются лишь 1916 год (Верденская мясорубка) и два года из истории Второй Мировой войны: 1941 (вторжение Германии в СССР в июне, атака Японии на Перл-Харбор и вступление США в войну в декабре) и 1945 — окончание войны. Примечательно, что Вторая Мировая война началась в 1939 году с вторжения Нацистской Германии в Польшу, но твиты сосредоточены были именно на периоде 1941-1945 гг., что объясняется активным участием в войне Соединенных Штатов.

Указанные выше временные маркеры (года 1916, 1941 и 1945) были привязаны к хэштегам. Много тэгов, относящихся к столетию событий Первой мировой было в 2016 году: они были приурочены к годовщинам битве при Вердене, битве на Сомме и Пасхальному восстание в Дублине, в ходе которого ирландские республиканцы, решив воспользоваться участием Великобритании в войне, хотели провозгласить независимую Ирландскую Республику. В 2016 году прошло 100 лет с этих событий, что и нашло отражение в хэштегах: #somme100, #Verdun100 и т.д.

На этой диаграмме упомянутые в твитах года (слева на окружности) связаны с наиболее частыми тематическими хэштегами (справа). Например, #otd (onthisday) встречается как в твитах о 1916, так и о 1945 г., а #sm1 (somme100) — только в твитах о 1916 (битва при Сомме — июль-ноябрь 1916).

Исторические параллели: между прошлым и будущим

Следующим шагом стала оценка объекта отражения твитов будь то историческая личность или какое-либо событие. В первую очередь оценивалось количество их появления.

Среди 30 самых популярных исторических субъектов — 22 географических наименования, два события и три исторических личности

Нетрудно заметить, что хэштеги с названиями стран и городов встречаются чаще других. Географический маркер давно прошедшего исторического события еще более прочно связывает его с настоящим. Вообразить, что здесь когда-то моряки бежали на штурм Зимнего в октябре 1917 года, проще, если стоите на Дворцовой площади.

Чтобы анализ исторического объекта был более достоверным, следующим шагом все данные были соотнесены с записями в DBpedia — краудсорсинговый проект, направленный на извлечение структурированной информации из Википедии. Все субъекты были разделены на пять категорий: «человек», «группа», «место», «событие» и «другое». Оказалось, что, хоть наиболее популярным у пользователей является указание места исторического события, чаще всего твиты связаны именно с персоналиями в истории. Больше всего упоминаются различные места, а вот чаще всего — определенные люди.

Дано, например, событие современной истории США — выборы 2016 года. В Twitter с ним связано всего одно место действия — Соединенные Штаты, а вот упоминаемых личностей можно насчитать как минимум пять: Дональд Трамп, Барак Обама, Билл Клинтон, Джордж Вашингтон и Авраам Линкольн.

Исторические субъекты упоминаются по разным причинам: их сравнивают в контекстном отношении с событиями и ключевыми фигурами современной истории, на их основе делают прогнозы и предположения на будущее, подчеркивают аналогии и проводят параллели. Если обобщить, история за счет таких линий сравнения становится «полезной». Но какие именно параллели проводились чаще всего? Необходимо сравнить частоту их появления по отношению друг к другу. Сначала «настоящее» отделяется от «прошлого» по весьма простому принципу: исторический субъект относится к «прошлому», если его смерть (в случае человека) или просто окончание (войны или иного исторического процесса) относится к ХХ веку. Эта информация тоже была собрана при помощи DBpedia.

Количество исторических субъектов, относящихся к настоящему или прошлому, было занесено в таблицу.

Уже невооруженным глазом видно, что число субъектов «прошлого» относится к субъектам из «настоящего», примерно, как 1:2. Это дает повод утверждать, что собранные данные безусловно ориентированы на историю.

Затем были построены связи между субъектами разных типов и времени возникновения.

Связи между субъектами разных временных категорий: фиолетовым цветом отмечены те пары категорий субъектов, которые практически не встречались в рамках одного твита, красным — самые частые сочетания

Результат не был неожиданным: места из «настоящего» сочетались с любыми типами субъектов «прошлого».

В другую таблицу внесли пять самых часто упоминаемых исторических личностей «настоящего» и «прошлого», а также события «прошлого». К ним подобрали топ-3 самых часто появляющихся в контексте с ними исторических субъектов. Дональд Трамп, например, соседствует с Адольфом Гитлером — вероятно, это что-то говорит об отношении к нему части американцев и общем уровне дискуссии в Twitter.

Но в основном систематизированные данные лишь подтвердили предыдущий вывод о том, что исторический субъект типа «место» сочетается с любыми другими.

Твиттер для историка

Какой же хештэг встречается чаще всего? Анализировались оригинальные твиты, ретвиты и количество учетных записей, владельцы которых их публикуют.

Самые популярные хэштеги a) для оригинальных твитов, b) для ретвитов, c) по количеству учетных записей.

Одним из самых популярных оказался хештэг #throwbackThursday (#TBT) — он задает тренд, в рамках которого пользователи публикуют картинки, вызывающие у них ностальгию. Но такая его популярность прослеживается лишь в рамках третьей категории, где считаются непосредственно количество пользователей, поставивших его под своими публикациями. В оригинальных твитах и ретвитах чаще всего встречаются хэштеги #onthisday или #otd. Причем вторые чаще всего используются специалистами-историками или на тематических страницах, а трендовый #TBT — в личных блогах.

Хэштеги также разделили на несколько тематических групп: «общеисторические» (#history, #historyfacts), с ярко выраженной национальной принадлежностью (#ancientgreece), тематическая история (#sportshistory), памятные (#onthisday, #weremember), событийные (#wwi, #sevenyearswar) и персональные (#stalin, #napoleon)

Тематические группы хэштегов

При оценке частоты появления тэгов каждой категории в общей базе данных, можно отметить, что тематическая и «общеисторическая» категории составляют почти половину от общего числа твитов (29,4% и 22,4%), а следом с небольшим отрывом следуют памятные хэштеги (20,6%).

Это позволяет сделать вывод, что помимо общего «развлекательного» контента объем специализированного «памятного» контента довольно значителен.

Не будь таким ограниченным в своих временных рамках!

Чтобы лучше понять характеристики отдельных категорий, исследователи прибегли к расчету межкатегориальной близости различных слов при помощи коэффициента сходства Жаккара по следующей формуле:

где ТА и ТВ — твиты двух разных категорий. Различные сочетания категорий отражены на рисунке. Категория «общеисторическая» действительно всеобъемлющая: она встречается в сочетании со всеми типами категорий. Также часто встречается сочетание событийных и персональных хэштегов. Точка пересечения этих категорий отмечена красным цветом — для них коэффициент Жаккара наибольший. При сопоставлении же памятных и тематических тэгов он практически равен нулю, что отражено на визуализации синим цветом.

Ожидалось, что объекты отражения твитов одной и той же категории должны быть в одинаковых временных рамках. Для подтверждения (или опровержения) этого утверждения для каждой категории вычислялась временная согласованность: для каждого хэштега составлялся вектор годовых оценок, полученных из твитов.Таким образом исследователи получили рейтинг наиболее часто упоминаемых дат в рамках одного хэштега.

Результаты сравнили посредством косинусной меры сходства между двумя векторами и представили результаты в таблице, где в первой колонке — сама косинусная мера, во второй — стандартное отклонение сходства, а в третьей указано количество твитов от общего числа, в которых было указаны временные маркеры.
Эти результаты были представлены на графике.

Распределение временных маркеров по категориям (малый график отражает большой в логарифмическом масштабе).

Визуализация еще раз указывает на то, что все категории истории прошлых веков весьма сильно связаны с историей настоящего. Основной пик приходится на 2016 год. Событийные тэги встречаются чаще всего применительно к двум мировым войнам, как и тэги памятной тематической группы. Однако последние имеют совершенно другие временные графики, поскольку посвящены годовщинам определенных исторических событий, а они отмечаются уже в наши дни.

Аналогично исследовалась согласованность исторических субъектов: задавался вектор каждого субъекта исходя из соответствующего ему хэштега, вычислялось попарное сходство между хэштегами каждой категории, которое затем усреднялось и было представлено в таблице.

Согласованность исторических субъектов: (слева направо) категория — косинусная мера — стандартное отклонение косинусной меры — коэффициенты (все субъекты — субъекты прошедшего времени — субъекты настоящего времени).

Одни и те же хэштеги могли относится к разным объектам, с этим связаны низкие коэффициенты сходства между ними. Выделить, пожалуй, можно только тэги памятной тематической группы: у них показатели больше, что означает тенденцию к включению имен исторических личностей и географических наименований пользователями в твитах с тэгами #onthisday, #weremember и проч.

Мера исторического хаоса

Наконец, для каждой категории оценивался разброс исторических субъектов и временных маркеров — информационная энтропия базы данных, мера ее неопределенности.

На первой визуализации хэштеги размещены в соответствии со значениями энтропии для исторических субъектов и временных маркеров.

Чем выше и правее точка на графике, тем большее количество возможных субъектов и временных рамок может соответствовать данной категории (принадлежность к категории указана на легенде графика) — тем выше ее мера неопределенности.

Высокие значения энтропии оказались у памятных тэгов — как в отношении временных рамок, так и в отношении исторических личностей. Соответствующие им точки сосредоточены в правом верхнем углу графика, где по оси х — значения энтропии для исторических субъектов, а по оси y — для временных маркеров. При этом исторические субъекты в общем имеют значения энтропии ниже, чем временные маркеры, что объяснимо: они ограничены этими временными маркерами и сосредоточены на краткосрочных событиях.

На втором и третьем графике представлены связи между пользователями и историческими субъектами, которых они упоминают в своих постах и между пользователями и временными рамками, к которым они чаще всего обращаются.

В правом верхнем углу второго графика (пользователи-субъекты) сосредоточены общеисторические и памятные хэштеги, которым в постах когда-либо соответствовали исторические субъекты. Это говорит о том, что в твитах с такими тэгами может быть упомянута не одна историческая личность и не одно событие. Чаще всего из исторических деятелей упоминали Сталина и Гитлера — им также соответствуют высокие значения энтропии.

Третий график (пользователи-временные маркеры) иллюстрирует, что наиболее высокие значения энтропии присущи твитам из памятной категории хэштегов: они содержат большое количество разных дат и публикуются многими пользователями.

Польза и новаторство (вместо заключения)

Исторический контент в социальных сетях — новый объект для изучения исторической памяти. Проведение исторического исследования на основании материалов социальных сетей — направление, которое только зарождается. Поэтому описанное исследование не лишено некоторых недочетов. Например, внимание уделялось лишь англоязычным твитам.

Не менее интересно было бы выяснить, как память об исторических событиях отражена в русскоязычном интернет-сегменте: какие основные темы затрагиваются в подкастах об истории и историях, события какого временного диапазона преобладают в том же Twitter с хэштегами #памятный_день и #историяроссии,, какой информацией делятся друг с другом члены тематических открытых групп на Фейсбуке, являются они учеными или любителями-историками и т.д. Также интересно, как функционируют исторические хэштеги в Инстаграме.

Поле для исследований здесь широкое, а история — весьма противоречивая. Ее «документирование» в постах и твитах, конечно, не прольёт свет на тайны и несостыковки в летописях Древней Руси или секретных архивах КГБ. Но вот определить, кто есть кто в современной «войне памяти», какой образ Ленина сохранился в современных медиа и с какими историческими личностями сравнивают современных российских политических деятелей — вполне реально.

Источник: Digital History meets Microblogging: Analyzing Collective Memories in Twitter