Восстания, Первая мировая война, броневики, голод, бедность… И в это же время Русские сезоны, последняя выставка Бубнового валета и «Смутное» Кандинского. Революция 1917 года — одно из крупнейших потрясений в российской истории, на осознание которого пойдут труды еще не одного поколения.
За этим калейдоскопом молниеносно следующих друг за другом событий стояли люди — политики, император, интеллигенты, генералы и многие другие, каждый из которых непосредственно влиял на дальнейшее развитие истории Революции 1917 года.
Мы проанализировали исторические дневники, собранные в проекте «1917. Свободная история». (подробнее о проекте СБъ писал здесь) и узнали, что волновало участников событий и о чем писали газеты.
Почему именно дневники?
С исследовательской точки зрения, появление таких больших корпусов оцифрованных данных как базы дневников «Прожито» и «1917. Свободная история», открыток «Пишу тебе» и стремительное развитие методов работы с большими данными позволяет выйти за рамки привычной методологии исследований и посмотреть на историю по-новому.
С исторической точки зрения, дневники и письма — одни из наиболее эмоциональных источников. Они позволяют увидеть за привычным перечислением дат и событий живых людей, которые по-своему проживали происходившие изменения. Авторы дневников не продумывают сюжет своих записей, не выстраивают логическое повествование и не боятся осуждения взглядов. Поэтому записи в дневниках можно сравнить с эмоциональными очерками, которые просто рассказывают о переживаниях и впечатлениях.
Дневники лишь одного человека вряд ли объективно опишут атмосферу в обществе. Но если сложить их все вместе и рассмотреть в совокупности, можно получить картину общественной жизни и, что важнее, проанализировать ее. В этом как раз могут пригодиться методы NLP.
Что в данных?
В первую очередь произвели первоначальную предобработку записей — удалили дубликаты и привели даты к старому стилю (от григорианского к юлианскому календарю). В итоге в коллекции собрали 13521 дневниковую запись, которые написали в период с 1 ноября 1916 по 5 января 1918 годов.
Первое, на что стоит обратить внимание — распределение записей по датам:
На графике отчетливо выделяются три пика в 1917 году:
- Конец февраля – начало марта. В это время происходит первый этап Революции — Февральский (25 февраля – 3 марта).
- Начало июля — период июльских волнений, одного из самых масштабных кризисов Временного правительства (3-5 июля).
- Конец октября — Октябрьская Революция (25-26 октября).
Кто все эти люди?
Чтобы разобраться в мыслях современников 1917 года, необходимо хоть что-то о них понимать: уровень жизни и образования, социальный статус.
Рассмотрим распределение записей 30 наиболее «продуктивных» авторов:
Среди этих авторов можно выделить несколько групп:
- Императорская семья: Николай II, Мария Федоровна;
- Интеллигенция: Александр Бенуа и Константин Сомов, Зинаида Гиппиус и Александр Блок;
- Иностранцы, находящиеся на службе в России: Альфред Нокс, Жорж Морис Палеолог;
- Оппозиционные политики: Владимир Ленин, Александр Керенский, Анатолий Луначарский;
- Авторы дневников среди разных сословий: Александр Замараев, крестьянин из Вологодской губернии, и Никита Окунев, московский служащий;
Также в отдельную категорию можно выделить российскую и зарубежную прессу (Русское слово и Петроградская газета, The New York Times и Pathé News).
По рассмотренным выше авторам можно сделать два вывода:
- В корпусе представлены не только исторические дневники, но и пресса, и официальные постановления. Из этого следует, что часть текстов в собранном датасете написаны в официальном стиле и точно не имеют ярко выраженной эмоциональной окраски.
- В основном авторы дневников — люди с отличным образованием, достигшие определенного успеха в своей сфере. Поэтому интерпретации, которые можно получить на основе дневников, отражают мысли не всего общества в тот момент, а скорее его верхнего слоя.
О чем писали?
Теперь попытаемся разобраться в темах, о которых писали авторы. Для этого воспользуемся тематическим моделированием.
Тематическое моделирование — это способ построения модели коллекции текстов, которая определяет принадлежность документов к различным темам. Подробнее об этом можно почитать в нашем материале.
Эксперименты с различными моделями показали, что лучше всего подходит mARTM [1] (multimodal Additive Regularization for Topic Modeling), что неудивительно, так как ее можно довольно тонко настроить, что особенно важно для такой небольшой коллекции текстов.
Перед обучением модели было необходимо предобработать тексты — оставить слова длиннее трех символов и числа, убрать стоп-слова (множество часто используемых слов в русском языке, например, союзов и предлогов. Чаще всего берется из питоновской библиотеки nltk), а затем все лемматизировать (привести слова к начальным формам). Основная трудность в обучении тематических моделей заключается в отсутствии достаточно хорошо интерпретируемых метрик качества. Поэтому чаще всего гиперпараметры (параметры, которые не меняются в ходе процесса обучения и контролируют его ход) приходится подбирать эмпирически, а иногда и интуитивно.
Модель ARTM также умеет выделять предметные и фоновые темы. В фоновые темы попадают слова общей лексики, то есть те, которые никак не могут характеризовать предметные темы. В ключевые токены предметных тем входят слова, которые могут дать ключ к интерпретации темы. Это большое преимущество моделей ARTM, так как к темам в итоге относятся наиболее характерные для них слова.
В итоге, удалось подобрать оптимальную конфигурацию модели и получились следующие темы:
Токены расположены по убыванию их важности для описания тем.
Среди получившихся тем выделяются несколько кластеров:
- К войне можно отнести темы под номерами 2 и 6.
- Записи про Революцию и другие политические события находятся под номерами 3, 8, 11, 13, 14, 15, 17.
- Темы про искусство и различные экзистенциальные вопросы — 10, 18.
- Все остальные темы фоновые.
Практически по каждой теме можно понять, к чему или к какому периоду она относится. Среди фоновых тем выделяются 5, 9 и 12. Благодаря им и другие темы получились довольно осмысленными.
Интересно, что и в получившихся кластерах темы довольно сильно обособлены друг от друга. Например, часть тем про Революцию относится к каким-либо событиям, а другая часть — в целом к рассуждениям о Революции (14).
Рассмотрим, какие именно события нашли отражение в темах.
Ключом к интерпретации темы 3 («министр», «дума», «распутин», «министерство», «государь», «царь», «заседание») являются токены «государь», «царь». Напомним, что все дневники написаны в период с конца октября 1916 года по начало января 1918, а значит эта тема относится к последним месяцам Российском Империи. На это также указывает упоминание Распутина в этой теме, так как его убийство произошло в середине декабря 1916 года. Первым, наиболее важным для модели, было слово «министр», и это не случайно, так как в то время широко обсуждали назначение на пост министра внутренних дел октябриста Александра Протопопова, деятельность которого получила очень неоднозначную оценку.
(даты на этих и следующих изображениях по григорианскому календарю)
Не менее интересна тема 8 («украинский», «рада», «украина», «центральный», «республика», «генеральный», «киев»). Очевидно, что здесь речь идет о революционном движении в Украине, которое уже в начале марта 1917 года создало свой орган власти — Украинская центральная рада. Национальный вопрос был животрепещущей темой для Российской Империи на протяжении всего ее существования, а отделение Польши, Финляндии и Украины практически сразу после Февральской Революции еще раз подтверждает, что Николай II и правительство так и не смогли прийти к нормальному решению этой проблемы.
11 тема («правительство», «керенский», «совет», «временной», «комитет», «большевик», «комиссар») относится к временному промежутку после Июльских восстаний и до Октябрьской Революции. В конце июля формируется второе коалиционное Временное правительство, Александр Керенский заменил бывшего председателя князя Львова. В это же время, особенно после Корниловского мятежа, все больший политический вес набирают большевики. В начале октября партия выбирает курс на вооруженное восстание, а в середине этого же месяца создает при Петросовете Военно-революционный комитет, который, по сути, как раз занимался подготовкой к этому восстанию.
Тема 13 («хлеб», «рубль», «мука», «комната», «купить», «цена», «вещь») про бедность и проблемы с продовольствием на протяжении всего временного периода представленных дневников. Продовольственный кризис, вызванный затянутой Первой Мировой еще во времена Империи, еще больше усилился вследствие всех событий 1917 года.
К 15 теме («рабочий», «собрание», «партия», «революция», «учредительный», «революционный», «совет») относятся записи про Октябрьскую Революцию.
17 тема («царский», «великий», «поезд», «ехать», «князь», «приехать», «петроград») рассказывает об отречении Николая II от престола. На момент начала стачек в Петрограде в феврале 1917 года император находился в Могилеве. Узнав о том, что события приобретают довольно крупный масштаб, Николай II попытался уехать в Царское Село, но железные дороги были перекрыты, и поэтому поезду пришлось уехать в Псков. 2 марта к императору от лица Временного комитета Государственной думы приехали Александр Гучков и Василий Шульгин. После долгих переговоров, в 23:40 Николай II подписал отречение от престола в пользу своего брата, Михаила Александровича, который тоже вскоре отрекся. Так закончилась история монархической династии Романовых.
Заключение
Применение различных методов анализа данных и тематического моделирования к дневникам из проекта «1917. Свободная история» позволили понять, что волновало людей во времена Революции 1917 года.
В статье приведен не полный набор тем, но такой подход позволил найти основные направления мысли того времени,которые в дальнейшем можно исследовать гораздо глубже.
Автор благодарит научного сотрудника Научно-учебной лаборатории моделей и методов вычислительной прагматики ФКН НИУ ВШЭ Екатерину Артемову за помощь и советы при подготовке исследования, из которого родилась эта статья.
Источники
- Воронцов К. В. Вероятностное тематическое моделирование: теория, модели, алгоритмы и проект BigARTM. – 2020.
- История России: учебник/ А. С. Орлов, В. А. Георгиев, И90 Н. Г. Георгиева, Т. А. Сивохина. — 4-е изд., перераб. и доп. — Москва: Проспект, 2019. — 528 c.