Читать нас в Telegram
Иллюстрация: Надя Луценко

Это продолжение руководства по использованию Voyant Tools. Как загрузить и подготовить корпус, читайте в первой части.

Анализируем корпус с помощью инструментов Voyant Tools

В VT встроено множество инструментов для работы с текстом. Их  подробное описание вы можете найти в гайде от создателей приложения.

Рисунок 1. Инструменты Voyant Tools

Посмотрим на работу нескольких инструментов: «‎Тренды» (Trends), «‎Коллокации» (Collocations), «‎Мандала» (Mandala).

Тренды в Voyant Tool

График ниже — пример того, как работает инструмент «‎Тренды». Для каждого отдельного слова отображается относительная частота его распределения по корпусу в виде разноцветных линий.

Рисунок 2. Вид инструмента «Тренды» в Voyant Tools

Слова, выбранные для отображения, — в окошке слева. Корпус для исследования — публицистический цикл Ф. М. Достоевского «Дневник писателя».

Относительно эволюции взглядов Достоевского распространена следующая исследовательская точка зрения: Достоевский со временем становится более консервативным писателем, тяготеет к религии, начинает симпатизировать славянофилам, всё больше отдаляясь от идей социализма.

График выше в целом с такой трактовкой скорее совпадает: ко второй половине 1870-х гг. Достоевский чаще пишет о политике и религии. «Россия», «европа», термины, связанные с духовностью и христианством, показывают рост. При этом частота понятий, связанных, например, с литературой и искусством, в целом ниже и не показывает особой динамики.

Рост употребления слов «россия» и «европа» во второй книге за 1877 год объясним внешними причинами: в апреле 1877 г. на волне национально-освободительного движения балканских славян началась очередная русско-турецкая война.

Рисунок 3. Отражение русско-турецкой войны 1877–1878 гг. в корпусе публицистики Достоевского

Частотность слов в «‎Трендах» можно отобразить несколькими способами. Чтобы выбрать тот или иной, надо нажать кнопку Display и выбрать желаемый:

Рисунок 4. Настройки отображения инструмента «‎Тренды»

Выбираем вид Columns и получаем следующий график:

Рисунок 5. «‎Тренды» в виде вертикального барчарта

Или вот такой при выборе вида Stacked Bar:

Рисунок 6. «‎Тренды» в виде составного барчарта

Коллокации в Voyant Tools

Инструмент «‎Коллокации» показывает, какие слова чаще всего встречаются рядом с ключевым словом. Ключевое слово — это Term, встречающиеся рядом с ними слова — Collocates, а Count — это частота, с которой слово встречается рядом с ключевым.

Моей изначальной задумкой было взять десять наиболее распространённых слов в  публицистике Достоевского и десять самых частотных слов художественных текстов, затем сравнить их коллокаты. Но результаты определения наиболее частотных слов в художественном корпусе заставили немного изменить план.

Вот 10 самых частотных слов публицистики:

Рисунок 7. Десять самых частотных слов в «‎Дневнике писателя» Ф. М. Достоевского

А вот 10 самых частотных слов художественных произведений Фёдора Михайловича:

Рисунок 8. Десять самых частотных слов в художественной прозе Ф. М. Достоевского

Жанр текста существенно повлиял на употребление частей речи. Художественная проза насыщена действиями героев, следовательно, глаголами. «Рука» и «лицо» — хоть и существительные, но тоже нужны для описания действий персонажей и их состояния, что подтверждается с помощью тех же «‎Коллокаций»:

Рисунок 9. Коллокации для слова «‎рука» в художественной прозе Ф. М. Достоевского

Задачу я переформулировала так: сопоставить коллокации таких частотных слов публицистики как «человек», «россия», «европа», «вопрос», «жизнь», «идея» с коллокациями этих же слов из художественного корпуса.

Рисунок 10. Настройки отображения коллокаций

Результат получился таким:

Как мы видим, одни и те же слова имеют разные коллокации в публицистике и художественной прозе. Например, в первом случае набор коллокаций указывает на функционирование ключевых слов в сфере идеологии и внешнего мира (для «россии»), во втором мы имеем дело с бытовой сферой, описаниями. «Россия» в  мире прозы рассматривается вне контекста внешней политики, и с ней явно происходит некое (взаимо)действие героев, на что указывают глаголы «затрещать», «служить», «ненавидеть».

Мандала в Voyant Tools

Рассмотрим ещё один интересный инструмент из группы визуальных. Название инструмента — «Мандала» (Mandala). В философии буддизма и индуизма это симметричный рисунок в виде круга, символизирующий мир, вселенную. В VT так называется инструмент для концептуальной визуализации корпуса: основные, то есть наиболее частотные термины отражены в виде диаграммы с привязкой к конкретным документам. Проще говоря, мы увидим красивую визуализацию самых распространённых слов корпусов.

Мандала по умолчанию не отражается на панели VT. Чтобы её запустить, нужно нажать на значок окошка рядом с любым дефолтным инструментом:

Рисунок 11. Ярлык для запуска дополнительных инструментов

Далее на открывшихся вкладках нужно выбрать тип, а затем конкретный инструмент. «‎Мандала» находится в группе визуальных средств:

Рисунок 12. Выбор инструмента «Мандала»

Получаем такой вид панели, где вместо привычного инструмента Cirrus — Mandala. Можно разместить инструмент (любой) и на всей панели, для этого надо нажать на «окошко» не какого-то отдельного инструмента, а всей панели. Элемент выделен красным на скриншоте:

Рисунок 13. Разворачивание инструмента на всю панель

Рисунок 14. Визуализация наиболее частотных слов публицистики Достоевского с помощью инструмента «‎Мандала»

Как можно работать с инструментом:

  • нажав на кнопку Add, добавить слова (для данного инструмента они называются «магнитами»), отображение которых нужно увидеть;
  • очистить диаграмму (Clear) и вписать исключительно свои слова;
  • сняв галку с кнопки labels, убрать все надписи.

При наведении на элемент — как на магнит, так и на документ — мы видим его связи. Например, на скриншоте ниже я навела курсор на магнит «константинополь», который ранее вручную добавила. Видим, что это слово встречается не во всех документах, его нет в ранних «Дневниках писателя», за 1863 и 1873 гг., а также в выпуске 1880 г., преимущественно посвящённом Пушкину.

Рисунок 15. Слово «‎константинополь» и его связи с документами в корпусе публицистики Достоевского

Рассмотрим применение инструмента и на художественном корпусе. Наиболее частотные слова в этом корпусе таковы, что их вряд ли можно назвать концептами, они в основном описывают действия. Интересно сравнить визуализации наиболее частотных слов и тех, которые исследователи Достоевского считают особо важными для его творчества. Список таких слов я составила на основе диссертации Е. Н. Бадаловой «Концептосфера романа “Идиот” Ф. М. Достоевского», использовав термины, выделенные как самой исследовательницей, так и её предшественниками. Эти слова характерны, по их мнению, для всего творчества писателя.

Концептосферу творчества Ф. М. Достоевского формируют следующие понятия: «время», «женщина», «петербург», «сон», «смерть», «христос», «жизнь», «болезнь», «город», «дом», «свет», «тьма». Предложенный также термин «бог» я удалила, т. к. невозможно будет различить без дополнительной обработки бога «концептуального» и бога из междометий вроде «ей-богу».

Рисунок 16. Мандала частотных слов в художественных текстах Достоевского

Рисунок 17.  Мандала концептов в художественных текстах Достоевского

Мы видим, что  концепты распределены довольно равномерно, как и частотные слова, только «христос» и «тьма» встречались не во всех документах корпуса.

С другой стороны, при внимательном взгляде на концепты становится понятно, что их вряд ли можно назвать эксклюзивными словами, типичными именно для творчества Достоевского. «Дом», «жизнь», «город» — без этих слов вряд ли можно представить художественный текст XIX века на русском языке. Напротив, «деревня», не относящаяся к концептам, встречается в текстах Достоевского очень равномерно:

Рисунок 18. Мандала для слова «‎деревня» в художественной прозе Достоевского

Ещё пример. Слово «женщина» обозначено исследователями как концепт, а «старик» и «ребенок» нет, хотя они встречаются чаще в художественных текста Достоевского.

Рисунок 19. Частота употребления слов «‎ребенок», «‎старик», «‎женщина» в художественной прозе Достоевского

Как видим, VT — отличный наглядный способ соотнести ваши предположения о свойствах текста с его статистическими характеристиками.

Поисковые запросы

Рассмотрим ещё одну тему — как задать поисковый запрос для различных инструментов. VT предлагает ряд опций, разберём некоторые из них:

  • славянин: найдено слово «славянин», именно в такой форме;
  • cлавян* : найдены слова, начинающиеся с префикса «славян» с различными окончаниями, например, «славянин», «славянский», «славянофильство»:

Рисунок 20.  Отображение поискового запроса славян* для инструмента Contexts

  • *янин: найдены слова, заканчивающиеся на этот префикс. В публицистическом корпусе Достоевского это «славянин» (с очень большим отрывом, 261 слово из 337), «крестьянин», «дворянин», «агарянин», «поселянин», «римлянин», «критянин», «хрестьянин». Интересно, что в художественном корпусе такой же запрос показывает лидерство «крестьянина» (137 слов из 240), «славянин» же встречается всего пару раз;
  • брат славянин: поиск точной фразы. Предсказуемо чаще встречалось в публицистике (восемь раз), во второй книге 1876 и первой 1877 г., то есть накануне начала войны.

Цветовая гамма

Многие инструменты визуализации VT привязаны к цветовой гамме. Однако иногда дефолтные цвета могут вам не понравиться и/или не подойти. Вот пример ниже, инструмент Bubblelines, с помощью которого я визуализировала частоту встречаемости слов «москва» и «петербург» по художественным текстам Достоевского.

Получилась следующая картина:

 Рисунок 21.  Визуализация употребления слов «‎москва» и «петербург» в художественных текстах Достоевского с помощью инструмента Bubblelines

Термины окрашены в разные цвета, но мне сложно отличить их друг от друга. Чтобы исправить ситуацию, нажимаем на значок слайдера в правом верхнем углу. 

Откроется окно следующего вида, в разделе Palette выбираем редактирование (Edit List):

Рисунок 22.  Настройки отображения инструмента Bubblelines

Открывается редактор:

Рисунок 23.  Настройки палитры инструмента Bubblelines

Что можно сделать:

  • выбрать новый цвет из градиентов в правой части редактора или ввести код цвета в окошке под градиентом, затем нажмите кнопку «Добавить» (Add);
  • удалить любой цвет из дефолтных (или тех, которые мы уже добавили). Нажимаем на квадратик с цветом в левой части редактора, далее на кнопку «Удалить» (Remove);
  • удалить все цвета, нажав на кнопку «Очистить» (Clear). Затем можно добавить новые и сохранить новую гамму с помощью кнопки Save New Palette.

В итоге я выбрала следующую цветовую гамму, с двумя контрастными цветами, т. к. собиралась посмотреть на частотность только двух терминов. Если терминов больше, необходимо иметь в гамме больше цветов, иначе они начнут повторяться.

Рисунок 24.  Пользовательская палитра инструмента Bubblelines

Получаю следующий результат и теперь чётко вижу, что упоминания Петербурга (фиолетовый) в прозе Достоевского действительно больше, чем упоминаний Москвы (зелёный цвет):

 Рисунок 25.  Визуализация слов «‎москва» и «‎петербург» с изменённой палитрой

Менять цветовую гамму можно для любого инструмента, в котором цвета используются.

В этом обзоре я рассмотрела только небольшую часть инструментов VT, но, как видим, их вполне достаточно для анализа текстов. Осваивайте Voyant Tools и делайте цифровые гуманитарные исследования!