Как сделать свой DH-проект: гайд для новичков

Мы не раз писали о цифровых корпусах и собраниях сочинений, исторических базах данных и интерактивных картах. Мы любим рассказывать, как они устроены и что с их помощью можно узнать. А что делать, если вы сами решили создать DH-проект? «Системный Блокъ» проанализировал удачные кейсы и составил для вас гайд.

Что же такое цифровой гуманитарный проект? Как организовать каждый шаг работы над ним? Как оценить зрелость вашей идеи? Вместе с экспертами мы выстраиваем схему работы и разбираем проблемы, которые могут возникнуть на вашем пути.

Что такое цифровой гуманитарный проект?

На этот вопрос нет однозначного ответа. Вот как считает цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора ИРЛИ РАН Кирилл Маслинский: «Когда вы увидите DH-проект, вы сразу поймете, что это DH-проект. Если серьезно, границы понятия DH-проект будут так же размыты и изменчивы во времени, как и само понятие Digital Humanities. И, в общем-то, не важно, что так называть. Важно лишь, чтобы те, кому небезразличны гуманитарные данные, находили разные формы обращения к аудитории, и в том числе цифровые».

Мы предлагаем считать, что это исследование или веб-инструмент, решающие задачи гуманитарных исследований с использованием цифровых технологий. Например, филолог Борис Орехов сделал таймлайн жизни русских писателей XVIII века: это цифровое переосмысление литературоведческой информации.

Визуализация таймлайна от Б. Орехова
Визуализация таймлайна. Источник: GitHub Бориса Орехова

Важно, чтобы в основе исследования лежали данные, а результат был доступен в цифровом или материальном виде — например, проекты «История немцев ХМАО» и «Хроники Варшавского восстания» существуют как сайты, а «Сибириана» — как цифровая выставка. Впрочем, проекты можно хранить и просто на Github, как делает, например, Computational Stylistics Group.

Что может быть основой проекта?

В основе любого DH-проекта должны лежать данные. Это может быть корпус художественных текстов, как у цифровых «Толстого», «Чехова» и «Пушкина», материалы архива, как у Sakharov.Space, набор открыток, как у «Пишу тебе», письма про любовь, дневники, как у центра «Прожито» — любые объекты, с которыми работают гуманитарии.

Для своего проекта вы можете собрать данные самостоятельно или посмотреть существующие хранилища. Например, большой репозиторий открытых данных по русской литературе и фольклору есть у Пушкинского дома. В нем можно найти не только данные, но и примеры оформления датасетов для DH-проектов. А здесь можно найти собрания данных по истории и географии от Гарварда.

Какие шаги есть в работе над проектом?

0) Придумать идею

Чтобы что-то сделать, надо сначала придумать, что, зачем и для кого вы делаете. Конечно, в процессе работы концепция может измениться: окажется, что-то уже существует, а что-то невозможно выполнить, но без цели невозможно начать куда-то двигаться. Вы должны понимать, кому эта работа нужна и как она может быть полезна. Иначе вы рискуете сделать то, что интересно и нужно только вам.

Не забудьте подумать о том, как долго и интенсивно вы готовы заниматься проектом: его «жизнь» закончится в момент, когда вы ответите на свой вопрос, или вы создадите ресурс, которым будут пользоваться еще долго после этого? Подробнее о том, как оценить DH-проект — на странице Калькулятора зрелости.

1) Найти или собрать данные

Определите, что уже есть для реализации вашей идеи. Нужно ли обратиться в архивы, оцифровать что-то, собрать корпус или достаточно загрузить набор данных?

Удачный пример:

«Chekhov Digital»: В качестве основы для совместного проекта ЮФУ и НИУ ВШЭ было выбрано полное собрание сочинений и писем А. П. Чехова в 30-ти томах, изданное в 1974-1983 гг. На наш взгляд, это удачный пример ситуации, когда авторы проекта приняли решение не «изобретать велосипед» и уделить внимание не сбору корпуса, который уже был подготовлен в рамках классического литературоведения, а другим задачам — семантической разметке и созданию базы данных имен и названий, связанных с Чеховым.

«Системный Блокъ» задал несколько вопросов о сборе данных профессору Елене Михайловне Севериной, одной из руководителей проекта:

Как вы остановились на том наборе данных, который в итоге стал основой проекта? 

Оцифрованных текстов чеховского наследия много, но они скорее ориентированы на читательскую аудиторию, а не на исследовательскую практику. Проект ЭНИ [Электронное научное издание] «Чехов», на который мы опирались, представляет собой академическое издание с редакционно-критическим аппаратом. Для нас это было важно, поскольку нам нужны были разнообразные индексы, чтобы разметить сущности в текстах.

Мы стремились максимально сохранить структуру текстов и самого издания, дополнив ее семантической разметкой для более сложного поиска по текстам и комментариям/примечаниям. Как и в ЭНИ «Чехов», мы представили каждое произведение в отдельном файле. Но, в отличие от ЭНИ, мы включили в каждый текст примечания и комментарии из Приложений.

Наш проект выполняется силами студентов программ «Цифровая лингвистика» и «Цифровая филология». Для них это важный образовательный опыт работы с разными типами разметки (HTML и TEI). Прежде чем приступать к разметке, мы проводим исследования (например, авторских концептов), что позволяет студентам получить полноценную научно-исследовательскую практику.

Планировали ли вы уменьшить или расширить этот набор данных? 

Конечно. Мы хотели сделать полноценное издание, включая дополнительные материалы и индексы (поиск по индексу имен и названий частично реализован). Но поскольку этот проект выполняется силами студентов, разработка происходит медленнее, чем хотелось бы. Сейчас мы работаем над новым индексом, которого нет в академическом издании, — индексом чеховских персонажей. Это достаточно трудоемкая работа. Сейчас база данных уже собрана, мы занимаемся ее верификацией, и даже в таком «сыром» виде — это ценный материал для исследований.

Какие шаги по (пред?)обработке были запланированы? Что получилось в итоге?

Мы использовали HTML-разметку для структурной разметки в TEI. Здесь мы столкнулись с тем, что в разных томах HTML-разметка выполнена по-разному и не всегда имеет понятную структуру. Приходилось вручную разбирать различия и учитывать их при автоматической разметке. Тем не менее мы все еще находим отдельные несоответствия.

Экран поиска по корпусу Chekhov Digital
Экран поиска по корпусу Chekhov Digital. Источник: Chekhov Digital

Подробнее об устройстве проекта можно прочитать в материале «Системного Блока».

2) Собрать команду

Для небольшого учебного проекта хватит и пары студентов, но для проектов, предполагающих, например, ручное комментирование или оценку, потребуются разметчики (часто — волонтеры). Впрочем, перед тем как просить множество людей помочь, нужно точно сформулировать, что именно вы хотите сделать, поэтому рекомендуем посмотреть и на следующий пункт.

Какие роли могут быть в команде? Делимся нашими идеями о том, без кого точно будет сложно:

  • главный менеджер/идейный вдохновитель/руководитель всего — в общем, тот, кто отвечает непосредственно за идею, ставит задачи перед другими участниками и хоть как-то представляет себе реализацию;
  • команда исследователей — те, кто будут делать исследование и писать о результатах;
  • IT-специалисты — иногда бывают совмещены с исследователями, но если речь идет об отдельном сайте/портале/приложении, то понадобятся и разработчик, и веб-дизайнер.

Переходим в категорию nice-to-haves — без этих ролей можно запустить карманный проект, но для развития они будут важны:

  • расширяющаяся команда авторов — студентов, например, можно завлечь закрытой практикой в университете, а просто исследователей — публикациями;
  • PR-менеджер проекта — чтобы рассказывать, сотрудничать, рекламировать, привлекать, развивать; можно организовать и целый SMM-отдел!
  • независимый эксперт — он даст экспертную оценку и сможет рассказать, что ваш проект достоин внимания;
  • редактор сайта/приложения — отвечает за то, что там выходит;
  • дизайнеры — для иллюстраций и в целом оформления внешнего вида проекта;
  • расширенный штат сайта — SEO, аналитика, UX;
  • менеджер коллабораций и внешних связей.

Удачный пример:

«Прожито»: корпус личных дневников и цифровой архив документов из домашних собраний изначально создавался как волонтерская инициатива. Сейчас же это научный центр Европейского университета в Санкт-Петербурге.

«Системный Блокъ» задал Директору Центра «Прожито» Михаилу Мельниченко вопрос о том, как сложилась судьба проекта с точки зрения команды и как менялось число участников:

Первые годы мы существовали как волонтерская инициатива. Первые деньги, которыми можно было платить за работу, появились примерно на втором году существования проекта, если не позже. Когда появилась возможность взять первого сотрудника, я предложил эту роль Алексею Сенюхину, тогда — студенту исторического факультета МГУ. Мы познакомились на первом оффлайн мероприятии «Прожито» в Москве, и с того момента Алексей стал одним из самых упорных волонтеров. К тому моменту он уже около года работал и выполнял огромный объем задач. Фактически ничего не изменилось — мы просто начали платить ему за вклад в проект. Сначала Алексей занимался координацией волонтеров и студенческих практик. Сейчас он работает с контентом корпуса и архивом.

Следующей появилась ставка SMM-специалиста. В тот момент это было критически важно, потому что социальные сети были основным каналом привлечения волонтеров.

В 2018 году, уже став заметным проектом с хорошей репутацией, мы пришли в Европейский университет с разговором о сотрудничестве. Коллеги предложили нам разработать дизайн научного центра, и с 2019 года мы стали частью ЕУСПб. Это полностью изменило нашу работу.

Первые пару лет мы, усилив команду, продолжали работать по привычным лекалам. Теперь у нас уже хорошо сложенный коллектив: есть протоколы работы и понятное распределение обязанностей. Сейчас «Прожито» — это устойчивая организация, в которой понятно, кто и за что отвечает, и условный «фактор автобуса» не угрожает ее существованию.

Увеличение коллектива и масштабирование процессов требуют менеджерского усиления. Сейчас это одна из наших главных задач. Нам важно разделить процессы контентных проектов, разработки, научной и просветительской деятельности. Для этого в команду нужен как минимум один новый участник с опытом управления процессами.

3) Определить задачи и составить план действий

Этот процесс также известен как операционализация, то есть переход от абстрактного  исследовательского вопроса к измеримым и формализованным концепциям.

Что конкретно нужно сделать с вашими данными? Если вы хотите их разметить, какие тэги вам нужны? Что из этого можно сделать автоматически, а где нужная ручная проверка?

Когда задачи понятны, составьте график работы. Сколько времени у вас есть на проект? Какие этапы вам нужно предусмотреть? Что будет результатом каждого этапа? 

На этом шаге хорошо составить как минимум таблицу с графиком или диаграмму Ганта. 

Удачный пример:

«Слово Толстого»: на странице «О проекте» можно прочесть о движении от идеи, что было бы здорово иметь «возможность осуществлять поиск по огромному корпусу текстов Толстого», к конкретным шагам: оцифровке, разметке типов произведений и других метаданных, затем добавлению хроники жизни писателя. Команда Tolstoy Digital трудится над проектом не один год, за счет чего семантическое издание стало не просто поиском с возможностью навигации, а многосторонним ресурсом с большим количеством возможностей для профессионалов и просто интересующихся.

Экран «О проекте» цифрового путеводителя «Слово Толстого». Источник: «Слово Толстого»

Кстати, подробнее об этом и других цифровых проектах про Толстого можно прочитать в этой подборке «Системного Блока».

4) Сделать проект

С какими проблемами вы можете столкнуться на этом этапе? Отвечает автор «Системного Блока» и проекта «Пишу тебе» Мария Подрядчикова:

Масштабирование идеи

Если перед работой у вас есть команда из пяти волонтёров, вряд ли вы сможете воплотить в жизнь амбициозные планы за сжатые сроки. Реализованный небольшой проект лучше, чем заброшенный большой. Хорошо проработайте идею MVP (минимально жизнеспособного продукта): может оказаться, что, например, корпус в виде excel-таблички, а не отдельного сайта с поиском и инфографикой, так же эффективен для 90% задач, которые хотели бы решить вы или другие исследователи — а сил такая реализация займёт в разы меньше. Калькулятор зрелости поможет вам понять, какие ступеньки можно преодолеть при создании проекта, но перепрыгивать через них, а не идти последовательно, иногда слишком энергозатратно. 

Недостаток навыков

Часто это не проблема, а возможность — проектная работа как никакая другая помогает приобрести новые навыки на реальном опыте. В идеале вы уже на этапе идеи должны понимать, какие навыки примерно нужны: тогда, возможно, удастся справиться с новыми вызовами собственными силами или вайбкодингом. Если же, например, вы начинали с небольшого корпуса-таблички, а теперь хотите сделать его сайтом, придётся заняться нетворкингом — или попробовать встроиться в больший проект, который уже решил эти проблемы. Иногда такие коллаборации бывают и между известными и крупными проектами: например, в Национальном корпусе русского языка хранится и часть коллекции «Прожито», ведь сам корпус «Прожито» представляет гораздо менее широкие возможности работы с текстом для лингвистов.

Предоставление доступа к данным

Не все данные можно широко публиковать или распространять: например, иногда для соблюдения авторских прав может потребоваться ограничить возможности скачивания или просмотра (так, в Национальном корпусе русского языка можно работать только с ограниченным числом примеров из произведений), а для безопасности чувствительных данных — обезличить или удалить часть информации.

Потеря мотивации

Если ваш проект — часть работы над грантом или дипломом в университете, проблем с внешней мотивацией не возникнет. Но что делать, если грант закончился, вы решили сменить тему или проект изначально был волонтёрским и независимым? Может помочь, если ваш проект станет частью DH-сообщества: увидев первые статьи, ссылающиеся на ваши данные (или написав их!), вы увидите реальную пользу от своей работы.

Прокрастинация публикации

Как понять, что ваш проект закончен? Всегда есть что-то, что можно доделать, отшлифовать, улучшить. Здесь опять полезно вернуться к идее MVP: если ваш проект, даже если это база данных на 1000 записей, помогает решить поставленные исследовательские задачи — он достаточно хорош. Для филологов и литературоведов хорошим промежуточным шагом между состояниями «данные, лежащие у нашей команды на гитхабе» и «сайт с открытыми данными, поиском, инфографикой, иллюстрациями и подробной разметкой» может быть, например, размещение ваших данных в репозитории открытых данных Пушкинского дома — он открыт для всех исследователей, но проходит предварительное рецензирование: поэтому ваш проект точно будет оценен профессионалами.

5) Оформить проект

Как вы хотите показать свой проект миру? На этом этапе мы предлагаем задуматься о создании и оформлении сайта, базы данных или корпуса. Здесь важно помнить, что секрет успеха не только в красивом дизайне, но и в наполнении и навигации — стоит задуматься о пользовательском опыте и том, как вы предлагаете взаимодействовать с вашим проектом.

Заказ оформления у профессионалов может не укладываться в ваш бюджет, но можно предложить сотрудничество друзьям-дизайнерам или хотя бы постараться выдержать всё в едином стиле.

Удачный пример:

Sakharov.space: То, о чём хочется мечтать, когда речь идет о визуальном представлении. Рекомендуем зайти и убедиться самостоятельно!

«Системный Блокъ» обратился в агентство Redis Agency, разработавшее дизайн Sakharov.space и задал несколько вопросов о проекте:

Что самое важное в визуальном представлении проекта, основанном на данных из гуманитарных наук?

Найти центральную метафору, которая станет стержнем проекта. Для Sakharov.space это была лестница как символ пути и восхождения. Второе — трансформировать огромный массив данных в живую историю. Сотни фото, документов, аудио и видео мы уместили в нарратив с разной глубиной погружения — от семи минут через видео до часа в архивах.

Можно ли сделать дизайн проекта одновременно эффектным и эффективным?

Да! Мы создали 3D-скульптуру Сахарова по архивным фото и оживили ее, как в старом кино. Результат: 1,5 миллиона визитов, среднее время на сайте – 15 минут. Более половины посетителей составила молодежь до 35 лет — ключевой KPI клиента.

Интересные факты о работе над Sakharov.space?

Технически проект уникален: 85% собрали в Webflow, 15% на WebGL. Главным вызовом было срежиссировать две параллельные истории Сахарова — путь физика и путь правозащитника. Проект получил награды от Awwwards до Webby, а мы — сотни писем от людей, вдохновленных историей Сахарова.

Экран проекта, посвященного Андрею Сахарову
Экран проекта, посвященного Андрею Сахарову. Источник: Sakharov.Space

6) Представить проект

На этом этапе нужно продумать, как люди узнают о вашем проекте. Для этого нужно не только вспомнить, кто ваша целевая аудитория и почему ваша работа ей нужна, но и из каких источников они получат о нем информацию. Если вы ориентируетесь на академическое сообщество, изучите, в каких научных журналах вам стоит описать проект и на каких конференциях выступить. Если вас интересует более широкий круг, исследуйте тематические ресурсы (блоги, каналы, сообщества и т.п.), которые могут рассказать о вас.

7.1) Поддерживать и расширять проект

Большинство классных проектов начиналось с маленькой доли того, что в них есть сейчас. После того, как первая версия проекта увидит свет, можно начинать думать о его росте, количественном или качественном. Можно ли увеличить базу данных, с которой вы работаете, или лучше добавить больше метаданных к существующей? Кому можно предоставить доступ для исследований, если ваш код не открытый? Возможно, выбранные вами методы можно улучшить или автоматизировать?

Удачный пример:

«Пишу тебе»: цифровой корпус почтовых открыток постоянно растет. На сайте можно поделиться своей открыткой или стать волонтером проекта. Помимо расширения корпуса, «Пишу тебе» регулярно участвует в коллаборациях и предоставляет свои материалы для исследований.

«Системный Блокъ» задал куратору отдела добычи «Пишу тебе» Тимуру Хусяинову вопрос о том, как не потерять мотивацию не только поддерживать существующее, но и двигаться вперед:

DH-проекты — удивительные звери. Благодаря широте тематик, подходов и методов они способны объединять самых разных людей и идеи.

При этом они часто не бывают «завершенными» — и именно это, как ни странно, может поддерживать мотивацию. В проекте «Пишу тебе» я все чаще ловлю себя на мысли, что важно не стремиться сразу к максимальному результату. Гораздо важнее — позволять проекту развиваться постепенно: открыткам накапливаться, базе расти.

Осознание того, что DH — это процесс, а не финальная точка, неожиданно становится хорошей опорой.

7.2) Подумать о будущем

Этот пункт — продолжение предыдущего. Что случится с вашим проектом, когда вы по той или иной причине перестанете им заниматься? Какие из используемых вами технологий могут устареть и что делать в таком случае? Кто платит за хостинг и доменное имя, и останутся ли где-то данные, если (когда) ваш сайт умрёт?

Продумать то, как ваш проект переживет конец финансирования, распад команды или просто исчезновение интереса, — это как подписать брачный договор. Хочется верить, что все будет хорошо, но быть готовыми к разному развитию событий полезно и в этой области.

Авторы: Дарья Балуева, Евгения Колпащикова, Мария Подрядчикова, Марина Севостьянова, Мария Семенюк, Яна Хлусова

Куратор: Евгения Колпащикова

Редактор: Дарья Устюжанина

Иллюстратор: Света Нагаева