После начала массовых блокировок со стороны Роскомнадзора, у специалистов по веб-архивации в России появилась новая задача — как можно быстрее сохранить медиа, которые находятся под угрозой блокировок или ликвидации.
Сейчас этим занимается «Национальный цифровой архив» — проект автономной НКО «Инфокультура», которая выступает за открытость данных и государственных структур. В более глобальных масштабах веб-архивацией занимаются Internet Archive (им принадлежит сервис Wayback Machine) или, например, Common Crawl, однако они ориентируются на цитируемость и популярность сайтов, поэтому многие сайты рунета могут остаться вне их поле зрения.
«Национальный цифровой архив» давно занял эту нишу в русскоязычном сегменте интернета, собирая архивы социальных сетей чиновников и ведомств, сайты предвыборных кампаний кандидатов в президенты 2018 года, сайты проектов недавно ликвидированного «Мемориала». Теперь проект «перезапустился» в сети и создал свой телеграм-канал, где публикует новости работе Архива.
Уже архивированные медиа и ближайшие планы можно посмотреть в таблице Airtable.
Среди собранных — сайты «Новой газеты», The New Times, DOXA, «Эхо Москвы», газеты «Бумага», изданий The Insider и Colta. Все они в последние недели либо получали предупреждения от РКН либо были заблокированы из-за освещения ситуации в Украине. «Эхо Москвы» после блокировки удалило сайт, YouTube канал и аккаунты в соцсетях.
Кроме сайтов в таблице можно найти архивы телеграм-каналов и страниц медиа в социальных сетях: группы ВКонтакте и целые Youtube каналы с видеоархивами.
Файлы в специальном формате для веб-архивации WARC можно открыть с помощью программы ReplayWeb.page в оффлайн режиме. Остальные архивы, среди которых, например, коллекция mp3-записей передачи «Цена победы» на «Эхе», можно открыть любым архиватором, который работает с ZIP и GZ файлами.
Для архивации сайтов проект использует ряд инструментов веб-архивации: данные собирают веб-краулеры, например, grab-site и Heritrix, а обрабатывают их при помощи библиотек для Python и Java, предназначенных для работы с форматом WARC.
Для других платформ, социальных сетей и мессенджеров инструментарий отличается. Так, группу «Эха Москвы» ВКонтакте волонтеры проекта выгружали при помощи API VK, а телеграм-канал «Новой газеты» заархивировали при помощи функции «export chat history», которая доступна в десктопном приложении.
Среди планов проекта — заархивировать сайты изданий The Village и «Тайга.инфо», томского телеканала ТВ2 и нескольких региональных медиа. Однако для того, чтобы собрать максимально полную базу медиа, Архив ищет волонтеров-разработчиков, которые готовы отслеживать сайты, находящиеся «в группе риска», а также помогать в их сохранении, разработке и актуализации инструментов для архивации.
Если же вы знаете цифровые проекты и ресурсы, которые могут исчезнуть в ближайшее время, но не нашли их в планах проекта, можно написать об этом в чат телеграм-канала Архива или предложить цифровой ресурс для архивации через специальную форму.