Digital Humanities, или Цифровые методы в гуманитарных науках: точка входа

Что такое DH?

Digital Humanities (DH) — это направление исследований, предполагающее использование цифровых методов для приобретения новых знаний в гуманитарной сфере.

Внутри DH можно выделить такие дисциплины, как цифровая филология, цифровая история или цифровое востоковедение, однако при этом DH остается единым направлением, объединенным общностью цифровых методов.

Инструменты DH исследований

Инструментарий DH исследований зависит от его целей: где-то используются количественные методы, где-то суммаризация и визуализация. Ниже мы приведем примеры инструментов, с помощью которых можно проводить DH-исследования, кратко их опишем, а также дадим ссылки на гайды «Системного Блока».

Предобработка

Для того, чтобы исследование вышло грамотным и красивым, нужно подготовить для него данные. Предобработка может сильно отличаться в зависимости от вида и состояния данных. Если это текст и его нужно распознать, пригодится гайд по optical character recognition (OCR) и статья о платформе для оцифровки Transkribus; если собрать тексты в корпус – подойдет один из гайдов по инструменту Voyant Tools.

А для исследований по цифровому востоковедению пригодятся гайды по токенизации китайского, корейского и японского с помощью Python-библиотек.

Стилометрия

Стилометрия — это статистический анализ для атрибуции текста. Подробнее о том, что это такое, можно прочесть в этом материале, а гайд по проведению собственного стилометрического эксперимента с помощью библиотеки языка R stylo находится здесь. Для тех, кто уже разобрался с базой, есть продвинутый гайд, а также обзор на функцию oppose().

Сетевой анализ

В рамках сетевого анализа данные представляются в виде графа, благодаря чему можно обнаружить неочевидные связи между изучаемыми элементами. Подробнее об истории сетевого анализа и о том, как «сплести» сеть самостоятельно — в гайде по инструменту Gephi. А после этого можно добавить красок, пользуясь вторым гайдом по нескучной визуализации в Gephi.

Корпусный анализ

Для DH характерна работа с большими данными, часто — с корпусами. О том, как собрать, разметить и хранить ваш корпус, — в этом гайде. Также предлагаем гайд по уже упоминавшемуся Voyant tools и дополнение к нему о том, как исследовать японские тексты.
Еще один инструмент, достойный внимания, — Sketch Engine, гайд по нему существует в двух частях: вот первая и вот вторая.

Тематическое моделирование

Как понять, о чем тексты, не читая их? Тематическое моделирование дает отличную возможность сделать предварительные выводы о содержании больших коллекций (корпусов) текстов. Представляем вашему вниманию основной гайд, гайд с подзаголовком «без боли и командной строки» и еще один.

Анализ именованных сущностей

О тексте можно узнать много интересного, выделяя в нем упоминания людей, мест, организаций и других важных деталей. О распознавании именованных сущностей на примере исторических дневников — в этом гайде.

Векторные семантические модели

Насколько слова похожи друг на друга с точки зрения контекстов, в которых они встречаются? На этот вопрос можно ответить с помощью векторных представлений слов. Здесь можно разобраться в том, как это работает, а с этим гайдом — научиться работать с Word2vec самостоятельно.

Кодирование TEI

Формат кодирования текстов, позволяющий хранить данные в удобном виде и добавлять к ним метаданные. Об истории и принципах работы TEI можно почитать здесь.

Создание семантических изданий

Оцифрованные тексты — это здорово, но на этом возможности взаимодействия литературного наследия с цифровой средой не заканчиваются. О цифровых проектах, посвященных творчеству и жизни Толстого, можно узнать здесь, а о семантическом (то есть цифровом с возможностью поиска) издании Чехова — здесь. Также существуют похожие проекты о Пушкине и Достоевском, которые СБъ еще предстоит осветить.

Конечно же, этот список не исчерпывающий и очень быстро пополняется. Пока что за кадром осталось, например, 3D-моделирование и использование GIS-технологий.

Глоссарий DH

  • Named Entity Recognition (NER) — выделение в тексте имен собственных и их последующая классификация.
  • TF-IDF — показатель «важности» слова для текста, используемый при поиске, классификации и кластеризации текстов.
  • Визуализация данных — о том, как представлять данные так, чтобы становилось понятнее и полезнее.
  • Дальнее чтение — исследование текстов «издалека», то есть попытка вычленить закономерности в тысячах текстов.
  • Дельта Бёрроуза — мера стилистической близости между текстами.
  • Лемматизация— приведение слов к базовой форме, чтобы упростить работу с текстом.
  • Сетевой анализ — способ исследования и визуализации связей между объектами: людьми, персонажами, животными или чем угодно еще.
  • Регулярные выражения — инструмент для поиска похожих частей в тексте по заданному шаблону.
  • Эго-документ — исторический источник личного происхождения: например, дневник, мемуары, письма или открытки.

Последние статьи по теме