В первый год существования внеклассные уроки «Разговоры о важном» проводились в государственных школах один раз в неделю с сентября 2022 г. по май 2023 г. На главном сайте «Разговоров» в течение года выкладывались видео- и аудиоматериалы, сценарии уроков и методические рекомендации. Сейчас там размещены материалы 2023 года: инициатива продолжается в школах и в этом учебном году.
Год разговоров о важном: много патриотизма, мало гуманизма
В методических рекомендациях есть пункт «формирующиеся» (иногда «формирующие») ценности — то есть те ценности, которые ставит перед собой целью привить школа в разных частях курса. Для начала мы подсчитали, в каком количестве уроков затрагивалась каждая тема. Всего по данным сайта в 2022–2023 учебном году были проведены 35 уроков. Мы скачали 175 методических рекомендаций: по 5 файлов (для 1–2, 3–4, 5–8, 9–11 классов) к каждому уроку и собрали информацию из пункта «Формирующие(ся) ценности» и посчитали количество упоминаний одних и тех же ценностей.
Близкие по смыслу понятия мы объединили, сложив их показатели. Например, «патриотизм» и «любовь к родине» или «самореализация», «развитие» и «самоопределение». «Историческая память» и «преемственность» тоже были объединены, потому что часто упоминаются вместе как единое понятие. В результате мы получили ранжирование ценностей по количеству уроков:
Видно, что, по замыслу авторов курса, «патриотизм» и «любовь к родине» являются главными ценностями, которые должна привить школа. Также в тройку лидеров с большим отрывом от остального списка входят «самореализация/развитие/самоопределение» и «историческая память / преемственность поколений»: не менее 80 уроков для разных возрастов затрагивали каждую тему. Для сравнения, «милосердие» упоминается в рекомендациях к девяти урокам, «гуманизм» — к четырём. Ещё ниже в конце списка находятся «высокие нравственные идеалы», «любовь и уважение к матери», «сострадание», «бескорыстие», «любовь к ближнему», «бережное отношение к природе».
Космические корабли бороздят просторы театра: какие темы обсуждаются в «Разговорах»
Тематическое моделирование (topic modelling) чаще всего применяется в тех случаях, когда нам хочется понять, каково содержание некоторого набора текстов. Но текстов может быть так много, что прочитать глазами мы их, скорее всего, не сможем, а понять, какие темы в них содержатся, нам очень надо. Тогда на помощь приходит тематическое моделирование. Вот здесь мы показывали пример его применения к массиву новостных текстов, а вот здесь подробно писали о математической составляющей этого метода.
В нашем случае корпус текстов не такой большой, и задача, которую мы хотим решить с помощью тематического моделирования, немного другая. Мы хотим увидеть, к каким темам сводятся все «Разговоры о важном», какие темы наиболее устойчивы, иными словами, что лежит в основе государственной идеологии и на чём строится нарратив пропаганды в школах.
Существует несколько инструментов для тематического моделирования (его можно делать и в командной строке, и в простом графическом интерфейсе, и, к примеру, в Python). Мы использовали три разные программы, чтобы перепроверить полученные результаты.
На каком материале мы моделировали тематику «Разговоров»
Для «Разговоров» были записаны более 200 видео, из них 28 обозначены пометкой «федеральные спикеры». В сценариях к урокам указано, в какой момент рекомендуется включать видео, какие вопросы к нему задавать и как интерпретировать. Видеоролик — наиболее компактный, сжатый и выверенный формат для того, чтобы донести мысль до зрителя. Поэтому для тематического моделирования были выбраны именно расшифровки видео как материал, который, в отличие от беседы учителя с учениками, будет донесён до слушателей в неизменном виде.
На YouTube-канале 100ballnik размещены 196 видео с субтитрами. Существующие API для Python позволяют автоматически скачивать субтитры к видео на YouTube-каналах. Нами были извлечены 196 текстовых файлов с расшифровкой видео к урокам. Ещё шесть недостающих видео федеральных спикеров были скачаны с портала «Разговоров о важном», и для них были сгенерированы субтитры с помощью веб-сервиса Veed. Таким образом был получен корпус из 202 текстовых файлов. Каждый файл содержал расшифровку видео, слова были приведены в начальную форму, нижний регистр, пунктуация убрана.
Космос, школа, театр, государство, война: результаты тематического моделирования
Первый эксперимент
Тематическое моделирование с помощью scikit-learn основано на алгоритмах неотрицательного матричного разложения (Non-negative Matrix Factorization). После применения этого инструмента мы получили семь осмысленных тем:
На основании списков из 20 слов к каждой теме мы выделили следующие темы:
Topic 1 — космос и наука;
Topic 2 — государство и война;
Topic 3 — искусство;
Topic 4 — семья;
Topic 5 — детские и молодёжные движения;
Topic 6 — учитель и школа;
Topic 7 — государственность и закон.
Второй эксперимент
Библиотека BERTopic разработана специально для тематического моделирования с помощью статистической меры TF-IDF и в отличие от двух других программ имеет функцию автоматического выбора количества тем. При таких настройках мы получили семь тем: опытным путём мы установили, что такое количество тем при работе с BERTopic является наиболее оптимальным. Ниже мы приводим полученный график, характеризующий каждую тему пятью словами.
На основании списка из десяти слов для каждой темы мы озаглавили их следующим образом:
Topic 0 — война;
Topic 1 — театр и кино;
Topic 2 — наука и космос;
Topic 3 — государственность и её символика;
Topic 4 — Россия как империя;
Topic 5 — детские и молодёжные движения;
Topic 6 — семья.
Третий эксперимент
Программа Mallet — самый традиционный, классический инструмент тематического моделирования. Mallet использует для тематического моделирования латентное размещение Дирихле (LDA). Программа не имеет графического интерфейса и запускается из командной строки, количество тем нужно обязательно задать. Наиболее удачно наши данные сложились в восемь тем, которые можно озаглавить так:
Тема 1 — официальные символы России;
Тема 2 — семья;
Тема 3 — школа и молодёжные движения;
Тема 4 — война и героизм;
Тема 5 — наука и космос;
Тема 6 — культура и искусство;
Тема 7 — экология и природа;
Тема 8 — волонтёрство.
Ключевые слова топиков 1–8 (слева направо сверху вниз), полученные с помощью LDA
Что в итоге
Тематическое моделирование с помощью трёх программ показало, что наиболее устойчивые темы «Разговоров о важном» — это семья, школа, театр и кино, детские и молодёжные общественные движения, наука, космос, война и государство. Среди слов с наибольшим весом встречаются такие, как ребенок, мама, учитель, театр, движение, ледокол, космос, война, Крым, конституция, герб, страна, герой. Это позволяет судить о том, какие темы считаются важными для «Разговоров о важном» с точки зрения тех, кто составляет программы и готовит видеорекомендации.