Это продолжение руководства по использованию Voyant Tools. Как загрузить и подготовить корпус, читайте в первой части.
Анализируем корпус с помощью инструментов Voyant Tools
В VT встроено множество инструментов для работы с текстом. Их подробное описание вы можете найти в гайде от создателей приложения.
Рисунок 1. Инструменты Voyant Tools
Посмотрим на работу нескольких инструментов: «Тренды» (Trends), «Коллокации» (Collocations), «Мандала» (Mandala).
Тренды в Voyant Tool
График ниже — пример того, как работает инструмент «Тренды». Для каждого отдельного слова отображается относительная частота его распределения по корпусу в виде разноцветных линий.
Рисунок 2. Вид инструмента «Тренды» в Voyant Tools
Слова, выбранные для отображения, — в окошке слева. Корпус для исследования — публицистический цикл Ф. М. Достоевского «Дневник писателя».
Относительно эволюции взглядов Достоевского распространена следующая исследовательская точка зрения: Достоевский со временем становится более консервативным писателем, тяготеет к религии, начинает симпатизировать славянофилам, всё больше отдаляясь от идей социализма.
График выше в целом с такой трактовкой скорее совпадает: ко второй половине 1870-х гг. Достоевский чаще пишет о политике и религии. «Россия», «европа», термины, связанные с духовностью и христианством, показывают рост. При этом частота понятий, связанных, например, с литературой и искусством, в целом ниже и не показывает особой динамики.
Рост употребления слов «россия» и «европа» во второй книге за 1877 год объясним внешними причинами: в апреле 1877 г. на волне национально-освободительного движения балканских славян началась очередная русско-турецкая война.
Рисунок 3. Отражение русско-турецкой войны 1877–1878 гг. в корпусе публицистики Достоевского
Частотность слов в «Трендах» можно отобразить несколькими способами. Чтобы выбрать тот или иной, надо нажать кнопку Display и выбрать желаемый:
Рисунок 4. Настройки отображения инструмента «Тренды»
Выбираем вид Columns и получаем следующий график:
Рисунок 5. «Тренды» в виде вертикального барчарта
Или вот такой при выборе вида Stacked Bar:
Рисунок 6. «Тренды» в виде составного барчарта
Коллокации в Voyant Tools
Инструмент «Коллокации» показывает, какие слова чаще всего встречаются рядом с ключевым словом. Ключевое слово — это Term, встречающиеся рядом с ними слова — Collocates, а Count — это частота, с которой слово встречается рядом с ключевым.
Моей изначальной задумкой было взять десять наиболее распространённых слов в публицистике Достоевского и десять самых частотных слов художественных текстов, затем сравнить их коллокаты. Но результаты определения наиболее частотных слов в художественном корпусе заставили немного изменить план.
Вот 10 самых частотных слов публицистики:
Рисунок 7. Десять самых частотных слов в «Дневнике писателя» Ф. М. Достоевского
А вот 10 самых частотных слов художественных произведений Фёдора Михайловича:
Рисунок 8. Десять самых частотных слов в художественной прозе Ф. М. Достоевского
Жанр текста существенно повлиял на употребление частей речи. Художественная проза насыщена действиями героев, следовательно, глаголами. «Рука» и «лицо» — хоть и существительные, но тоже нужны для описания действий персонажей и их состояния, что подтверждается с помощью тех же «Коллокаций»:
Рисунок 9. Коллокации для слова «рука» в художественной прозе Ф. М. Достоевского
Задачу я переформулировала так: сопоставить коллокации таких частотных слов публицистики как «человек», «россия», «европа», «вопрос», «жизнь», «идея» с коллокациями этих же слов из художественного корпуса.
Рисунок 10. Настройки отображения коллокаций
Результат получился таким:
Как мы видим, одни и те же слова имеют разные коллокации в публицистике и художественной прозе. Например, в первом случае набор коллокаций указывает на функционирование ключевых слов в сфере идеологии и внешнего мира (для «россии»), во втором мы имеем дело с бытовой сферой, описаниями. «Россия» в мире прозы рассматривается вне контекста внешней политики, и с ней явно происходит некое (взаимо)действие героев, на что указывают глаголы «затрещать», «служить», «ненавидеть».
Мандала в Voyant Tools
Рассмотрим ещё один интересный инструмент из группы визуальных. Название инструмента — «Мандала» (Mandala). В философии буддизма и индуизма это симметричный рисунок в виде круга, символизирующий мир, вселенную. В VT так называется инструмент для концептуальной визуализации корпуса: основные, то есть наиболее частотные термины отражены в виде диаграммы с привязкой к конкретным документам. Проще говоря, мы увидим красивую визуализацию самых распространённых слов корпусов.
Мандала по умолчанию не отражается на панели VT. Чтобы её запустить, нужно нажать на значок окошка рядом с любым дефолтным инструментом:
Рисунок 11. Ярлык для запуска дополнительных инструментов
Далее на открывшихся вкладках нужно выбрать тип, а затем конкретный инструмент. «Мандала» находится в группе визуальных средств:
Рисунок 12. Выбор инструмента «Мандала»
Получаем такой вид панели, где вместо привычного инструмента Cirrus — Mandala. Можно разместить инструмент (любой) и на всей панели, для этого надо нажать на «окошко» не какого-то отдельного инструмента, а всей панели. Элемент выделен красным на скриншоте:
Рисунок 13. Разворачивание инструмента на всю панель
Рисунок 14. Визуализация наиболее частотных слов публицистики Достоевского с помощью инструмента «Мандала»
Как можно работать с инструментом:
- нажав на кнопку Add, добавить слова (для данного инструмента они называются «магнитами»), отображение которых нужно увидеть;
- очистить диаграмму (Clear) и вписать исключительно свои слова;
- сняв галку с кнопки labels, убрать все надписи.
При наведении на элемент — как на магнит, так и на документ — мы видим его связи. Например, на скриншоте ниже я навела курсор на магнит «константинополь», который ранее вручную добавила. Видим, что это слово встречается не во всех документах, его нет в ранних «Дневниках писателя», за 1863 и 1873 гг., а также в выпуске 1880 г., преимущественно посвящённом Пушкину.
Рисунок 15. Слово «константинополь» и его связи с документами в корпусе публицистики Достоевского
Рассмотрим применение инструмента и на художественном корпусе. Наиболее частотные слова в этом корпусе таковы, что их вряд ли можно назвать концептами, они в основном описывают действия. Интересно сравнить визуализации наиболее частотных слов и тех, которые исследователи Достоевского считают особо важными для его творчества. Список таких слов я составила на основе диссертации Е. Н. Бадаловой «Концептосфера романа “Идиот” Ф. М. Достоевского», использовав термины, выделенные как самой исследовательницей, так и её предшественниками. Эти слова характерны, по их мнению, для всего творчества писателя.
Концептосферу творчества Ф. М. Достоевского формируют следующие понятия: «время», «женщина», «петербург», «сон», «смерть», «христос», «жизнь», «болезнь», «город», «дом», «свет», «тьма». Предложенный также термин «бог» я удалила, т. к. невозможно будет различить без дополнительной обработки бога «концептуального» и бога из междометий вроде «ей-богу».
Рисунок 16. Мандала частотных слов в художественных текстах Достоевского
Рисунок 17. Мандала концептов в художественных текстах Достоевского
Мы видим, что концепты распределены довольно равномерно, как и частотные слова, только «христос» и «тьма» встречались не во всех документах корпуса.
С другой стороны, при внимательном взгляде на концепты становится понятно, что их вряд ли можно назвать эксклюзивными словами, типичными именно для творчества Достоевского. «Дом», «жизнь», «город» — без этих слов вряд ли можно представить художественный текст XIX века на русском языке. Напротив, «деревня», не относящаяся к концептам, встречается в текстах Достоевского очень равномерно:
Рисунок 18. Мандала для слова «деревня» в художественной прозе Достоевского
Ещё пример. Слово «женщина» обозначено исследователями как концепт, а «старик» и «ребенок» нет, хотя они встречаются чаще в художественных текста Достоевского.
Рисунок 19. Частота употребления слов «ребенок», «старик», «женщина» в художественной прозе Достоевского
Как видим, VT — отличный наглядный способ соотнести ваши предположения о свойствах текста с его статистическими характеристиками.
Поисковые запросы
Рассмотрим ещё одну тему — как задать поисковый запрос для различных инструментов. VT предлагает ряд опций, разберём некоторые из них:
- славянин: найдено слово «славянин», именно в такой форме;
- cлавян* : найдены слова, начинающиеся с префикса «славян» с различными окончаниями, например, «славянин», «славянский», «славянофильство»:
Рисунок 20. Отображение поискового запроса славян* для инструмента Contexts
- *янин: найдены слова, заканчивающиеся на этот префикс. В публицистическом корпусе Достоевского это «славянин» (с очень большим отрывом, 261 слово из 337), «крестьянин», «дворянин», «агарянин», «поселянин», «римлянин», «критянин», «хрестьянин». Интересно, что в художественном корпусе такой же запрос показывает лидерство «крестьянина» (137 слов из 240), «славянин» же встречается всего пару раз;
- брат славянин: поиск точной фразы. Предсказуемо чаще встречалось в публицистике (восемь раз), во второй книге 1876 и первой 1877 г., то есть накануне начала войны.
Цветовая гамма
Многие инструменты визуализации VT привязаны к цветовой гамме. Однако иногда дефолтные цвета могут вам не понравиться и/или не подойти. Вот пример ниже, инструмент Bubblelines, с помощью которого я визуализировала частоту встречаемости слов «москва» и «петербург» по художественным текстам Достоевского.
Получилась следующая картина:
Рисунок 21. Визуализация употребления слов «москва» и «петербург» в художественных текстах Достоевского с помощью инструмента Bubblelines
Термины окрашены в разные цвета, но мне сложно отличить их друг от друга. Чтобы исправить ситуацию, нажимаем на значок слайдера в правом верхнем углу.
Откроется окно следующего вида, в разделе Palette выбираем редактирование (Edit List):
Рисунок 22. Настройки отображения инструмента Bubblelines
Открывается редактор:
Рисунок 23. Настройки палитры инструмента Bubblelines
Что можно сделать:
- выбрать новый цвет из градиентов в правой части редактора или ввести код цвета в окошке под градиентом, затем нажмите кнопку «Добавить» (Add);
- удалить любой цвет из дефолтных (или тех, которые мы уже добавили). Нажимаем на квадратик с цветом в левой части редактора, далее на кнопку «Удалить» (Remove);
- удалить все цвета, нажав на кнопку «Очистить» (Clear). Затем можно добавить новые и сохранить новую гамму с помощью кнопки Save New Palette.
В итоге я выбрала следующую цветовую гамму, с двумя контрастными цветами, т. к. собиралась посмотреть на частотность только двух терминов. Если терминов больше, необходимо иметь в гамме больше цветов, иначе они начнут повторяться.
Рисунок 24. Пользовательская палитра инструмента Bubblelines
Получаю следующий результат и теперь чётко вижу, что упоминания Петербурга (фиолетовый) в прозе Достоевского действительно больше, чем упоминаний Москвы (зелёный цвет):
Рисунок 25. Визуализация слов «москва» и «петербург» с изменённой палитрой
Менять цветовую гамму можно для любого инструмента, в котором цвета используются.
В этом обзоре я рассмотрела только небольшую часть инструментов VT, но, как видим, их вполне достаточно для анализа текстов. Осваивайте Voyant Tools и делайте цифровые гуманитарные исследования!