Как сделать свой DH-проект: гайд для новичков

Мы не раз писали о цифровых корпусах и собраниях сочинений, исторических базах данных и интерактивных картах. Мы любим рассказывать, как они устроены и что с их помощью можно узнать. А что делать, если вы сами решили создать DH-проект? «Системный Блокъ» проанализировал удачные кейсы и составил для вас гайд.

Мы не только объясняем, что такое цифровой гуманитарный проект, но и описываем каждый шаг работы над ним: от идеи до презентации готового продукта. Вместе с экспертами мы разбираем проблемы, с которыми можно столкнуться на этом пути. А здесь вы найдете Калькулятор зрелости проекта — он поможет оценить, насколько ваша идея жизнеспособна. 

Что такое цифровой гуманитарный проект?

На этот вопрос нет однозначного ответа. Вот как считает цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора ИРЛИ РАН Кирилл Маслинский: «Когда вы увидите DH-проект, вы сразу поймете, что это DH-проект. Если серьезно, границы понятия DH-проект будут так же размыты и изменчивы во времени, как и само понятие Digital Humanities. И, в общем-то, не важно, что так называть. Важно лишь, чтобы те, кому небезразличны гуманитарные данные, находили разные формы обращения к аудитории, и в том числе цифровые».

Мы предлагаем считать, что это исследование или веб-инструмент, решающие задачи гуманитарных исследований с использованием цифровых технологий. Например, филолог Борис Орехов сделал таймлайн жизни русских писателей XVIII века: это цифровое переосмысление литературоведческой информации.

Визуализация таймлайна от Б. Орехова
Визуализация таймлайна. Источник: GitHub Бориса Орехова

Важно, чтобы в основе исследования лежали данные, а результат был доступен в цифровом или материальном виде — например, проекты «История немцев ХМАО» и «Хроники Варшавского восстания» существуют как сайты, а «Сибириана» — как цифровая выставка. Впрочем, проекты можно хранить и просто на Github, как делает, например, Computational Stylistics Group.

Что может быть основой проекта?

В основе любого DH-проекта должны лежать данные. Это может быть корпус художественных текстов, как у цифровых «Толстого», «Чехова» и «Пушкина», материалы архива, как у Sakharov.Space, набор открыток, как у «Пишу тебе», письма про любовь, дневники, как у центра «Прожито» — любые объекты, с которыми работают гуманитарии.

Для своего проекта вы можете собрать данные самостоятельно или посмотреть существующие хранилища. Например, большой репозиторий открытых данных по русской литературе и фольклору есть у Пушкинского дома. В нем можно найти не только данные, но и примеры оформления датасетов для DH-проектов. А здесь можно найти собрания данных по истории и географии от Гарварда.

Какие шаги есть в работе над проектом?

0) Придумать идею

Чтобы что-то сделать, надо сначала придумать, что, зачем и для кого вы делаете. Конечно, в процессе работы концепция может измениться: окажется, что-то уже существует, а что-то невозможно выполнить, но без цели невозможно начать куда-то двигаться. Вы должны понимать, кому эта работа нужна и как она может быть полезна. Иначе вы рискуете сделать то, что интересно и нужно только вам.

Не забудьте подумать о том, как долго и интенсивно вы готовы заниматься проектом: его «жизнь» закончится в момент, когда вы ответите на свой вопрос, или вы создадите ресурс, которым будут пользоваться еще долго после этого? Подробнее о том, как оценить DH-проект — на странице Калькулятора зрелости.

1) Найти или собрать данные

Определите, что уже есть для реализации вашей идеи. Нужно ли обратиться в архивы, оцифровать что-то, собрать корпус или достаточно загрузить набор данных?

Удачный пример:

«Chekhov Digital»: В качестве основы для совместного проекта ЮФУ и НИУ ВШЭ было выбрано полное собрание сочинений и писем А. П. Чехова в 30-ти томах, изданное в 1974-1983 гг. На наш взгляд, это удачный пример ситуации, когда авторы проекта приняли решение не «изобретать велосипед» и уделить внимание не сбору корпуса, который уже был подготовлен в рамках классического литературоведения, а другим задачам — семантической разметке и созданию базы данных имен и названий, связанных с Чеховым.

Экран поиска по корпусу Chekhov Digital
Экран поиска по корпусу Chekhov Digital. Источник: Chekhov Digital

Подробнее об устройстве проекта можно прочитать в материале «Системного Блока».

2) Собрать команду

Для небольшого учебного проекта хватит и пары студентов, но для проектов, предполагающих, например, ручное комментирование или оценку, потребуются разметчики (часто — волонтеры). Впрочем, перед тем как просить множество людей помочь, нужно точно сформулировать, что именно вы хотите сделать, поэтому рекомендуем посмотреть и на следующий пункт.

Какие роли могут быть в команде? Делимся нашими идеями о том, без кого точно будет сложно:

  • главный менеджер/идейный вдохновитель/руководитель всего — в общем, тот, кто отвечает непосредственно за идею, ставит задачи перед другими участниками и хоть как-то представляет себе реализацию;
  • команда исследователей — те, кто будут делать исследование и писать о результатах;
  • IT-специалисты — иногда бывают совмещены с исследователями, но если речь идет об отдельном сайте/портале/приложении, то понадобятся и разработчик, и веб-дизайнер.

Переходим в категорию nice-to-haves — без этих ролей можно запустить карманный проект, но для развития они будут важны:

  • расширяющаяся команда авторов — студентов, например, можно завлечь закрытой практикой в университете, а просто исследователей — публикациями;
  • PR-менеджер проекта — чтобы рассказывать, сотрудничать, рекламировать, привлекать, развивать; можно организовать и целый SMM-отдел!
  • независимый эксперт — он даст экспертную оценку и сможет рассказать, что ваш проект достоин внимания;
  • редактор сайта/приложения — отвечает за то, что там выходит;
  • дизайнеры — для иллюстраций и в целом оформления внешнего вида проекта;
  • расширенный штат сайта — SEO, аналитика, UX;
  • менеджер коллабораций и внешних связей.

Удачный пример:

«Прожито»: цифровой архив личных документов «Прожито» изначально поддерживался силами волонтеров, предлагая студентам участие в качестве практики. Сейчас же это проект Европейского университета.

3) Определить задачи и составить план действий

Этот процесс также известен как операционализация, то есть переход от абстрактного  исследовательского вопроса к измеримым и формализованным концепциям.

Что конкретно нужно сделать с вашими данными? Если вы хотите их разметить, какие тэги вам нужны? Что из этого можно сделать автоматически, а где нужная ручная проверка?

Когда задачи понятны, составьте график работы. Сколько времени у вас есть на проект? Какие этапы вам нужно предусмотреть? Что будет результатом каждого этапа? 

На этом шаге хорошо составить как минимум таблицу с графиком или диаграмму Ганта. 

Удачный пример:

«Слово Толстого»: на странице «О проекте» можно прочесть о движении от идеи, что было бы здорово иметь «возможность осуществлять поиск по огромному корпусу текстов Толстого», к конкретным шагам: оцифровке, разметке типов произведений и других метаданных, затем добавлению хроники жизни писателя. Команда Tolstoy Digital трудится над проектом не один год, за счет чего семантическое издание стало не просто поиском с возможностью навигации, а многосторонним ресурсом с большим количеством возможностей для профессионалов и просто интересующихся.

Экран «О проекте» цифрового путеводителя «Слово Толстого». Источник: «Слово Толстого»

Кстати, подробнее об этом и других цифровых проектах про Толстого можно прочитать в этой подборке «Системного Блока».

4) Сделать проект

С какими проблемами вы можете столкнуться на этом этапе? Отвечает автор «Системного Блока» и проекта «Пишу тебе» Мария Подрядчикова:

Масштабирование идеи

Если перед работой у вас есть команда из пяти волонтёров, вряд ли вы сможете воплотить в жизнь амбициозные планы за сжатые сроки. Реализованный небольшой проект лучше, чем заброшенный большой. Хорошо проработайте идею MVP (минимально жизнеспособного продукта): может оказаться, что, например, корпус в виде excel-таблички, а не отдельного сайта с поиском и инфографикой, так же эффективен для 90% задач, которые хотели бы решить вы или другие исследователи — а сил такая реализация займёт в разы меньше. Калькулятор зрелости поможет вам понять, какие ступеньки можно преодолеть при создании проекта, но перепрыгивать через них, а не идти последовательно, иногда слишком энергозатратно. 

Недостаток навыков

Часто это не проблема, а возможность — проектная работа как никакая другая помогает приобрести новые навыки на реальном опыте. В идеале вы уже на этапе идеи должны понимать, какие навыки примерно нужны: тогда, возможно, удастся справиться с новыми вызовами собственными силами или вайбкодингом. Если же, например, вы начинали с небольшого корпуса-таблички, а теперь хотите сделать его сайтом, придётся заняться нетворкингом — или попробовать встроиться в больший проект, который уже решил эти проблемы. Иногда такие коллаборации бывают и между известными и крупными проектами: например, в Национальном корпусе русского языка хранится и часть коллекции «Прожито», ведь сам корпус «Прожито» представляет гораздо менее широкие возможности работы с текстом для лингвистов.

Предоставление доступа к данным

Не все данные можно широко публиковать или распространять: например, иногда для соблюдения авторских прав может потребоваться ограничить возможности скачивания или просмотра (так, в Национальном корпусе русского языка можно работать только с ограниченным числом примеров из произведений), а для безопасности чувствительных данных — обезличить или удалить часть информации.

Потеря мотивации

Если ваш проект — часть работы над грантом или дипломом в университете, проблем с внешней мотивацией не возникнет. Но что делать, если грант закончился, вы решили сменить тему или проект изначально был волонтёрским и независимым? Может помочь, если ваш проект станет частью DH-сообщества: увидев первые статьи, ссылающиеся на ваши данные (или написав их!), вы увидите реальную пользу от своей работы.

Прокрастинация публикации

Как понять, что ваш проект закончен? Всегда есть что-то, что можно доделать, отшлифовать, улучшить. Здесь опять полезно вернуться к идее MVP: если ваш проект, даже если это база данных на 1000 записей, помогает решить поставленные исследовательские задачи — он достаточно хорош. Для филологов и литературоведов хорошим промежуточным шагом между состояниями «данные, лежащие у нашей команды на гитхабе» и «сайт с открытыми данными, поиском, инфографикой, иллюстрациями и подробной разметкой» может быть, например, размещение ваших данных в репозитории открытых данных Пушкинского дома — он открыт для всех исследователей, но проходит предварительное рецензирование: поэтому ваш проект точно будет оценен профессионалами.

5) Оформить проект

Как вы хотите показать свой проект миру? На этом этапе мы предлагаем задуматься о создании и оформлении сайта, базы данных или корпуса. Здесь важно помнить, что секрет успеха не только в красивом дизайне, но и в наполнении и навигации — стоит задуматься о пользовательском опыте и том, как вы предлагаете взаимодействовать с вашим проектом.

Заказ оформления у профессионалов может не укладываться в ваш бюджет, но можно предложить сотрудничество друзьям-дизайнерам или хотя бы постараться выдержать всё в едином стиле.

Удачный пример:

Проект Sakharov.space — то, о чём хочется мечтать, когда речь идет о визуальном представлении. Рекомендуем зайти и убедиться самостоятельно!

Экран проекта, посвященного Андрею Сахарову
Экран проекта, посвященного Андрею Сахарову. Источник: Sakharov.Space

6) Представить проект

На этом этапе нужно продумать, как люди узнают о вашем проекте. Для этого нужно не только вспомнить, кто ваша целевая аудитория и почему ваша работа ей нужна, но и из каких источников они получат о нем информацию. Если вы ориентируетесь на академическое сообщество, изучите, в каких научных журналах вам стоит описать проект и на каких конференциях выступить. Если вас интересует более широкий круг, исследуйте тематические ресурсы (блоги, каналы, сообщества и т.п.), которые могут рассказать о вас.

7.1) Поддерживать и расширять проект

Большинство классных проектов начиналось с маленькой доли того, что в них есть сейчас. После того, как первая версия проекта увидит свет, можно начинать думать о его росте, количественном или качественном. Можно ли увеличить базу данных, с которой вы работаете, или лучше добавить больше метаданных к существующей? Кому можно предоставить доступ для исследований, если ваш код не открытый? Возможно, выбранные вами методы можно улучшить или автоматизировать?

Удачный пример:

«Пишу тебе»: цифровой корпус почтовых открыток постоянно растет. На сайте можно поделиться своей открыткой или стать волонтером проекта. Помимо расширения корпуса, «Пишу тебе» регулярно участвует в коллаборациях и предоставляет свои материалы для исследований.

7.2) Подумать о будущем

Этот пункт — продолжение предыдущего. Что случится с вашим проектом, когда вы по той или иной причине перестанете им заниматься? Какие из используемых вами технологий могут устареть и что делать в таком случае? Кто платит за хостинг и доменное имя, и останутся ли где-то данные, если (когда) ваш сайт умрёт?

Продумать то, как ваш проект переживет конец финансирования, распад команды или просто исчезновение интереса, — это как подписать брачный договор. Хочется верить, что все будет хорошо, но быть готовыми к разному развитию событий полезно и в этой области.

Авторы: Дарья Балуева, Евгения Колпащикова, Мария Подрядчикова, Марина Севостьянова, Мария Семенюк, Яна Хлусова

Куратор: Евгения Колпащикова

Редактор: Дарья Устюжанина

Иллюстратор: Света Нагаева