Революция 1917 года — одно из крупнейших потрясений в российской истории. О чем думал Николай II в день отречения? Что волновало простых граждан? Какие темы поднимали в газетах? Мы проанализировали дневники очевидцев, которые собрал проект «1917. Свободная история», и выяснили, о чем в революцию писали чаще всего
Иллюстратор: Женя Родикова
Восстания, Первая мировая война, броневики, голод, бедность… И в это же время Русские сезоны, последняя выставка Бубнового валета и «Смутное» Кандинского. Революция 1917 года — одно из крупнейших потрясений в российской истории, на осознание которого пойдут труды еще не одного поколения.
За этим калейдоскопом молниеносно следующих друг за другом событий стояли люди — политики, император, интеллигенты, генералы и многие другие, каждый из которых непосредственно влиял на дальнейшее развитие истории Революции 1917 года.
Мы проанализировали исторические дневники, собранные в проекте «1917. Свободная история». (подробнее о проекте СБъ писал здесь) и узнали, что волновало участников событий и о чем писали газеты.
С исследовательской точки зрения, появление таких больших корпусов оцифрованных данных как базы дневников «Прожито» и «1917. Свободная история», открыток «Пишу тебе» и стремительное развитие методов работы с большими данными позволяет выйти за рамки привычной методологии исследований и посмотреть на историю по-новому.
С исторической точки зрения, дневники и письма — одни из наиболее эмоциональных источников. Они позволяют увидеть за привычным перечислением дат и событий живых людей, которые по-своему проживали происходившие изменения. Авторы дневников не продумывают сюжет своих записей, не выстраивают логическое повествование и не боятся осуждения взглядов. Поэтому записи в дневниках можно сравнить с эмоциональными очерками, которые просто рассказывают о переживаниях и впечатлениях.
Дневники лишь одного человека вряд ли объективно опишут атмосферу в обществе. Но если сложить их все вместе и рассмотреть в совокупности, можно получить картину общественной жизни и, что важнее, проанализировать ее. В этом как раз могут пригодиться методы NLP.
В первую очередь произвели первоначальную предобработку записей — удалили дубликаты и привели даты к старому стилю (от григорианского к юлианскому календарю). В итоге в коллекции собрали 13521 дневниковую запись, которые написали в период с 1 ноября 1916 по 5 января 1918 годов.
Первое, на что стоит обратить внимание — распределение записей по датам:
На графике отчетливо выделяются три пика в 1917 году:
Чтобы разобраться в мыслях современников 1917 года, необходимо хоть что-то о них понимать: уровень жизни и образования, социальный статус.
Рассмотрим распределение записей 30 наиболее «продуктивных» авторов:
Среди этих авторов можно выделить несколько групп:
Также в отдельную категорию можно выделить российскую и зарубежную прессу (Русское слово и Петроградская газета, The New York Times и Pathé News).
По рассмотренным выше авторам можно сделать два вывода:
Теперь попытаемся разобраться в темах, о которых писали авторы. Для этого воспользуемся тематическим моделированием.
Тематическое моделирование — это способ построения модели коллекции текстов, которая определяет принадлежность документов к различным темам. Подробнее об этом можно почитать в нашем материале.
Эксперименты с различными моделями показали, что лучше всего подходит mARTM [1] (multimodal Additive Regularization for Topic Modeling), что неудивительно, так как ее можно довольно тонко настроить, что особенно важно для такой небольшой коллекции текстов.
Перед обучением модели было необходимо предобработать тексты — оставить слова длиннее трех символов и числа, убрать стоп-слова (множество часто используемых слов в русском языке, например, союзов и предлогов. Чаще всего берется из питоновской библиотеки nltk), а затем все лемматизировать (привести слова к начальным формам). Основная трудность в обучении тематических моделей заключается в отсутствии достаточно хорошо интерпретируемых метрик качества. Поэтому чаще всего гиперпараметры (параметры, которые не меняются в ходе процесса обучения и контролируют его ход) приходится подбирать эмпирически, а иногда и интуитивно.
Модель ARTM также умеет выделять предметные и фоновые темы. В фоновые темы попадают слова общей лексики, то есть те, которые никак не могут характеризовать предметные темы. В ключевые токены предметных тем входят слова, которые могут дать ключ к интерпретации темы. Это большое преимущество моделей ARTM, так как к темам в итоге относятся наиболее характерные для них слова.
В итоге, удалось подобрать оптимальную конфигурацию модели и получились следующие темы:
Токены расположены по убыванию их важности для описания тем.
Среди получившихся тем выделяются несколько кластеров:
Практически по каждой теме можно понять, к чему или к какому периоду она относится. Среди фоновых тем выделяются 5, 9 и 12. Благодаря им и другие темы получились довольно осмысленными.
Интересно, что и в получившихся кластерах темы довольно сильно обособлены друг от друга. Например, часть тем про Революцию относится к каким-либо событиям, а другая часть — в целом к рассуждениям о Революции (14).
Рассмотрим, какие именно события нашли отражение в темах.
Ключом к интерпретации темы 3 («министр», «дума», «распутин», «министерство», «государь», «царь», «заседание») являются токены «государь», «царь». Напомним, что все дневники написаны в период с конца октября 1916 года по начало января 1918, а значит эта тема относится к последним месяцам Российском Империи. На это также указывает упоминание Распутина в этой теме, так как его убийство произошло в середине декабря 1916 года. Первым, наиболее важным для модели, было слово «министр», и это не случайно, так как в то время широко обсуждали назначение на пост министра внутренних дел октябриста Александра Протопопова, деятельность которого получила очень неоднозначную оценку.
(даты на этих и следующих изображениях по григорианскому календарю)
Не менее интересна тема 8 («украинский», «рада», «украина», «центральный», «республика», «генеральный», «киев»). Очевидно, что здесь речь идет о революционном движении в Украине, которое уже в начале марта 1917 года создало свой орган власти — Украинская центральная рада. Национальный вопрос был животрепещущей темой для Российской Империи на протяжении всего ее существования, а отделение Польши, Финляндии и Украины практически сразу после Февральской Революции еще раз подтверждает, что Николай II и правительство так и не смогли прийти к нормальному решению этой проблемы.
11 тема («правительство», «керенский», «совет», «временной», «комитет», «большевик», «комиссар») относится к временному промежутку после Июльских восстаний и до Октябрьской Революции. В конце июля формируется второе коалиционное Временное правительство, Александр Керенский заменил бывшего председателя князя Львова. В это же время, особенно после Корниловского мятежа, все больший политический вес набирают большевики. В начале октября партия выбирает курс на вооруженное восстание, а в середине этого же месяца создает при Петросовете Военно-революционный комитет, который, по сути, как раз занимался подготовкой к этому восстанию.
Тема 13 («хлеб», «рубль», «мука», «комната», «купить», «цена», «вещь») про бедность и проблемы с продовольствием на протяжении всего временного периода представленных дневников. Продовольственный кризис, вызванный затянутой Первой Мировой еще во времена Империи, еще больше усилился вследствие всех событий 1917 года.
К 15 теме («рабочий», «собрание», «партия», «революция», «учредительный», «революционный», «совет») относятся записи про Октябрьскую Революцию.
17 тема («царский», «великий», «поезд», «ехать», «князь», «приехать», «петроград») рассказывает об отречении Николая II от престола. На момент начала стачек в Петрограде в феврале 1917 года император находился в Могилеве. Узнав о том, что события приобретают довольно крупный масштаб, Николай II попытался уехать в Царское Село, но железные дороги были перекрыты, и поэтому поезду пришлось уехать в Псков. 2 марта к императору от лица Временного комитета Государственной думы приехали Александр Гучков и Василий Шульгин. После долгих переговоров, в 23:40 Николай II подписал отречение от престола в пользу своего брата, Михаила Александровича, который тоже вскоре отрекся. Так закончилась история монархической династии Романовых.
Применение различных методов анализа данных и тематического моделирования к дневникам из проекта «1917. Свободная история» позволили понять, что волновало людей во времена Революции 1917 года.
В статье приведен не полный набор тем, но такой подход позволил найти основные направления мысли того времени,которые в дальнейшем можно исследовать гораздо глубже.
Автор благодарит научного сотрудника Научно-учебной лаборатории моделей и методов вычислительной прагматики ФКН НИУ ВШЭ Екатерину Артемову за помощь и советы при подготовке исследования, из которого родилась эта статья.
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…