Зачем сохранять?

Цель сохранения культурных и интеллектуальных ресурсов состоит, в первую очередь, в том, чтобы сделать их доступными в любое время. Достоверные записи о прошлом важны по многим причинам — это информация о действиях и мыслях тех, кто был здесь до нас. Для гуманитарных наук важно изучение человеческой природы и культуры, им необходим доступ к зарегистрированной информации прямиком из прошлого, поскольку многие исследования полагаются на ретроспективу и вырабатывают направленную на это методологию, изучая также и современные доступные ресурсы. Сохранение прошлого — общественное благо, которое лежит в основе здоровья и благополучия всех гуманитарных исследований и передачи знания будущим поколениям.

Не менее важно наращивать интеллектуальный капитал человечества. Для этого нужно, чтобы специалисты-практики легко общались и чтобы барьеры для публикаций исследований были стерты. Цифровые технологии справляются с этой задачей, но не полностью. Те, кто стремится оставить свой (цифровой) след в гуманитарных науках, иногда прибегают к новым технологическим возможностям для продвижения своего исследования, и тогда новая эпоха им на руку. Но есть и те, кто испытывают трудности из-за препятствий для электронных публикаций, рецензирования и получения обратной связи («фидбэка»). Многие вовсе считают, что современный цифровой мир замедляет распространение публикаций, а также лишает ученых стимулов — лишь немногим удается получить какое-то вознаграждение за свою работу.

В научно-исследовательских институтах, где есть библиотеки, архивы и исторические коллекции, первичные и вторичные источники должны поддерживаться в определенном состоянии, которое обеспечивает легкость использования. Поэтому концепция «юзабилити» (т.е. простоты использования) является новым основным принципом, который и определяет решения, действия и меры по сохранению.

Оказывается, что в цифровой сфере навыки находить и извлекать информацию, а затем проверять подлинность ее источника, не менее значимы, чем при работе с аналоговыми объектами — рукописями, книгами, журналами и иными физическими носителями.

Поэтому общий подход к сохранению аналоговых и цифровых ресурсов абсолютно одинаков. Но вот стратегии, используемые для страховки от их потери, весьма различны:

В аналоговом мире информация хранится на физическом носителе: бумаге, кассетах, пергаменте, пленке и т. д. Но когда бумага становится хрупкой, кассеты ломаются или пленка выцветает, информация теряется. Поэтому важно обеспечить физическую целостность носителя. И это очевидно. Все физические объекты неизбежно стареют и разрушаются, и лишнее использование способствует этому. Здесь мы приходим к парадоксу: каждое использование объекта может привести к потере какой-то части информации (сотрутся буквы или испортится лента), его приходится изолировать, однако все делается для того, чтобы его могли использовать будущие поколения.

В цифровой сфере также существуют свои компромиссы между сохранением и доступом. В этой области информация невещественна, и поток битов не зафиксирован, он пересоздается каждый раз заново, когда используется. И все компромиссы состоят в зависимости данных от программного обеспечения и, в меньшей степени, от физического носителя, как сервер и другое машинное оборудование.

Что такое архивирование?

Как же сохранить терабайты информации — об этом рассуждают многие ученые их разных областей. «Архивирование», тем не менее, широко используется пользователями компьютеров. Для непрофессионалов, в том числе из академической среды, незнакомых с техническими аспектами библиотечного дела и теории архивов, цифровое архивирование означает хранение неактуальных материалов в каком-либо месте «в автономном режиме», чтобы их можно было в любой момент использовать снова. Но термины «архивирование», «сохранение» и «хранилище» имеют значимые технические различия — такие же значимые, как и различие между «мозгом» и «разумом» для нейробиолога. Чтобы избежать путаницы, специалисты используют термин «постоянство» (persistence) для обозначения долгосрочного доступа к информации.

Как же хранить цифровые данные?

Целью цифрового сохранения является обеспечение постоянного и непрерывного доступа к информации для будущего пользователя в полной и неизмененной форме. Цифровые объекты состоят из потоков битов 0 и 1, расположенных в логическом порядке, который может быть отображен на интерфейсе (обычно на экране) с помощью компьютерного оборудования и программного обеспечения. Именно постоянство этого потока, его порядок имеет такое важное значение для доступа к цифровым объектам в долгосрочной перспективе.

Ученые выделяют две существенные проблемы для цифрового сохранения:
• физическое сохранение: как сохранить целостность носителей данных;
• логическое сохранение: как сохранить целостность того кода, который и визуализируется на цифровых объектах.

Мы не можем убежать от материальной выраженности сохранённой информации, и оказывается, что цифровые объекты по своей природе очень хрупки и часто больше подвержены риску потери данных, чем информация, записанная на ветхой бумаге.

В настоящее время существует четыре стратегии для решения проблем сохранения носителей и устаревания аппаратного и программного обеспечения.

Миграция — цифровая информация передается или перезаписывается с одной аппаратной программной конфигурации на более современную. Например, цифровой репозиторий, в котором хранятся данные, сам переформатирует или «нормализует» поступающие данные.

Плюсы:
· Необходимый и экономически выгодный процесс в долгосрочной перспективе.
· Лучше всего подходит для данных простых форматов.

Минусы:
· Цифровые файлы, переведенные в другой формат, неизбежно теряют часть информацию при каждом последующем переформатировании.
· Не всегда работает для мультимедийных объектов.

Итог: На сегодняшний момент самый часто используемый метод демонстрирует значительную надежность с текстом и некоторыми базами данных с количественными показателями, вроде тех, что используют финансовые учреждения.

Эмуляция — целью эмуляции является сохранение внешнего вида цифрового объекта, то есть сохранение функциональности программного обеспечения, а также информационного содержания объекта.

Плюсы: Люди могут использовать ушедшие типы цифровых объектов — таких как компьютерные игры.

Минусы: В будущем появятся новые электронные устройства, для которых все придется эмулировать заново.

Итог: Эмуляция в настоящее время находится в стадии исследования, ее потенциал еще не раскрыт и может сильно продвинуть нас в задачах цифрового сохранения.

Непрерывное хранение объекта (POP) — предусматривает «обертывание» цифрового объекта информацией, необходимой для его воссоздания в текущем программном обеспечении (а не в исходном программном обеспечении, предусмотренном эмуляцией)

Плюсы: Является наиболее перспективным методом для таких объектов, как официальные записи и другие высокоструктурированные жанры, не требующие переформатирования при нахождении в хранилище.

Минусы: —

Итог: Эта стратегия была успешно опробована на этапе исследований, и в настоящее время «Archives» разрабатывают для нее программу внедрения.

Также этот метод используется цифровыми художниками для определения, какие функции аппаратной и программной среды являются аутентичными, а какие — взаимозаменяемы и не нуждаются в сохранении.

Сохранение технологий — эта стратегия решает будущие проблемы устаревания путем сохранения цифрового объекта вместе с аппаратным обеспечением, операционной системой и программой оригинала.

Плюсы: Создание музея цифровых технологий с полной документацией об оригинальном аппаратном и программном обеспечении будет играть важную роль для будущей цифровой археологии.

Минусы: Слишком сложно и дорого, не может стать решением для повседневного хранения информации.

Итог: Будущие компьютерные инженеры должны иметь возможность получать информацию со старых машин, чтобы создавать новое программное обеспечение.

Все технические стратегии, изложенные выше, зависят от форматов файлов и схем метаданных. Например, оригинальные форматы хранить рискованно, поскольку они зависят только от поддержки предприятия, которое может в любой момент обанкротиться. Даже предприятие, создавшее формат, который настолько широко используется, что является неоспоримом стандартом, как PDF (Adobe Systems, Inc.), с большой осторожностью относится к тем, кто отвечает за его постоянное хранение. Также важно, что если все-таки случится банкротство, обнародовать свой исходный код владелец не сможет. По этой причине так много сил тратится на разработку и продвижение свободного программного обеспечения с открытым исходным кодом.

Проблема авторского права

Еще в девятнадцатом веке многие выдающиеся ученые-гуманитарии становились главами библиотек и архивов. Уже тогда они пользовались достижениями технических наук для хранения и обработки информации. Так и сейчас ученым следует уделять внимание информационным ресурсам, имеющим решающее значение для их областей, путем разработки и принятия стандартов.
Одним из таких «гарантов» хранения информации всегда являлся институт авторского права. Основное беспокойство по поводу авторского права — это продолжительность действия: жизнь автора + 70 лет (или более). Правовой режим позволяет библиотекам и архивам сохранять материалы, защищенные авторским правом.

Но с появлением рынка цифровой информации правила игры изменились. Издатели и распространители цифровой информации очень редко продают свои товары. Они лицензируют их. Это означает, что библиотеки больше не владеют журналами, базами данных или другой цифровой интеллектуальной собственностью, к которой они предоставляют доступ пользователям. Поскольку издатели не занимаются защитой и сохранением информации «навечно», то потенциально существует множество ценных цифровых ресурсов, которые являются «незащищенными». Некоторые библиотеки обеспокоенно решают эту проблему, договариваясь с издательствами, не за бесплатно, естественно. Хотя цифровые носители хороши для текущих потребностей в доступе, лишь немногие библиотеки считают их архивными объектами. Например, некоторые издатели академической литературы заключили необычные соглашения с библиотеками, гарантируя, что в случае банкротства цифровые файлы издателя попадут в библиотеку.

Несмотря на развитие библиоцентрической культуры, остается большая угроза утери первичных источников. За последние 150 лет экспоненциальный рост визуальных ресурсов и звукозаписей позволил перевести множество первоисточников в аудиовизуальные форматы, и они находятся под защитой авторских прав (Lyman and Varian 2000). Но все еще многие ресурсы находятся под контролем предприятий, которые не берут на себя ответственность по сохранению, поэтому существует серьезный риск крупных потерь в будущем. Так это произошло с кинематографом: более 80% немых фильмов, снятых в Соединенных Штатах, как и 50% всех кинолент, отснятых до 1950 года, потеряны, по-видимому, навсегда.

Неидеальные цифровые объекты

Хотя ценность цифровых объектов заключается в их способности изменяться для различных целей, все же существует много причин, из-за которых информация обязана быть фиксированной и стабильной, чтобы быть правильно проинтерпретированной. Не связанная с дискретными физическими артефактами, цифровая информация доступна в любом месте, в любое время. Посредством вычислительных приложений можно легко манипулировать цифровыми объектами, объединять их, удалять и размножать, не оставляя никаких физических следов, которые могли бы сообщить нам об их подлинности и происхождении. Например, кто несет ответственность за сохранение ссылок в авторской статье или эссе ученика? Каким-то образом мы все ждем, что этот вопрос о подлинности будет решаться магической силой. Но чудес не бывает. Очевидно, что такая волшебная палочка еще не существует.

Проблема бесперебойной связи с источниками имеет большое значение для развития гуманитарных наук как части академической жизни, так и при передачи этих ресурсов путем преподавания. Пока публикации статьи в электронном журнале или исследования, созданные в форме компьютерной модели (как музыкальный анализ) не будут внушать доверие, мало кто станет этим всерьез заниматься.

Современные решения

В последние годы была развернута активная деятельность по решению многих сложнейших технических вопросов по созданию и поддержке цифровых хранилищ. А вот частный сектор, являясь новатором в области информационных технологий, как в разработке аппаратного и программного обеспечения, так и в управлении цифровыми активами, не стремился развивать системы сохранения. Это связано прежде всего с тем, что временные горизонты планирования у тех, кто занимается охраной культуры, и у коммерческих секторов радикально разнятся. Если большинство систем хранения данных «частников» обеспечены на пять-десять лет вперед, то временной интервал сохранения библиотек, архивов и исследовательских учреждений должен учитывать интересы многих будущих поколений, как бы сверхоптимистично это ни звучало.

Конечно, цифровые хранилища не появятся в тысячах учреждений, которые традиционно служили центрами хранения книг. Это невероятно сложно и дорого. Да и вовсе не требуется. Но в сетевой среде отношения между физическим хранением и доступом к информации должны быть трансформированы. В исследовательском и некоммерческом сообществах вполне вероятно, что система цифровых хранилищ или архивов будет распределена среди нескольких основных действующих лиц, представляющих многомиллионную аудиторию пользователей. Другими словами, они станут частью так называемой информационной экономики общественных благ.

Примерами могут служить такие академические организации, как Межуниверситетский консорциум по политическим и социальным исследованиям (ICPSR), который управляет и наборами данных общественных наук, и Банком генома человека. Обе базы поддерживаются самим консорциумом и федеральными грантами. Данные в этих архивах структурированы, так как вкладчики несут ответственность за их подготовку к внесению.

Таким же предприятием является JSTOR — цифровая база данных полнотекстовых научных журналов и книг. Она работает от имени исследователей и финансируется библиотеками через подписку. Создают свои репозитории и некоторые крупные библиотеки исследовательских университетов: Калифорнийский, Гарвардский, Массачусетский технологический институт, Стэнфордский университет. Корнелльский университет взял под свое крыло архив препринтов, созданный для сообщества физики элементарных частиц. Подобную модель трудно поддержать гуманитарным дисциплинам, так как гуманитарное сообщество обычно не создает общих информационных ресурсов. И все же, научные сообщества, как правило, не располагают хорошими возможностями для капитальных затрат, которые требует обслуживание хранилищ.

Библиотека Конгресса США (LC) получает в свою коллекцию по одной или несколько копий всех произведений, переданных на защиту авторских прав (в настоящее время это около 120 миллионов экземпляров). LC разрабатывает стратегию создания национальной инфраструктуры для сохранения всего цифрового наследия, причем с гарантией, что огромное количество людей сможет иметь постоянный и защищенный доступ к нему. Национальный архив США также не оставляет попыток по приобретению и сохранению цифровой продукции правительства, что является беспрецедентным явлением.

Стоит сказать и о группе частных коллекционеров, смотрящих далеко в будущее. Как, например, Брюстер Кале, который спроектировал и создал Интернет-архив, автоматически собирающий большое количество общедоступных сайтов. Пусть это и малая часть всей интернет-сети, все равно архив содержит огромное количество культурно значимых материалов.

Взгляд вперед

При должном финансировании и наличии доброй воли на это, решения по сохранению цифровой информации будут найдены. Вот только как определить, что из огромного массива всей доступной информации должно быть отобрано для сохранения во времени?

Теоретически для ученых-гуманитариев может быть интересно все: налоговые отчеты, списки из прачечной, порно сайты, личные страницы, блоги и так далее. И многие ученые-технари придерживаются именно такой позиции: сохранить все. А что если какой-то подросток со скромным твиттером станет лет через 30 президентом? Если мы сохраняем все веб-сайты, то обязаны сохранить и его записи тоже. Когда полнота исторических данных является приоритетной в системе ценностей, которая котируется в обществе, то сохранение всего, что только может быть сохранено — самый логичный и безопасный вариант. Однако большая часть Интернета, так называемая Deep Web, не является общедоступной, а многие сайты защищены авторскими правами.

Очевидно, все, что создается государственными организациями, опубликовано и принадлежит всем, в полной и неискаженной форме. Кроме того, уже сейчас существуют огромные и дорогостоящие хранилища данных о мире — от простых переписей до петабайтов данных, отправляемых на Землю с орбитальных спутников. С другой стороны, есть основания полагать, что гуманитарии в будущем будут одинаково заинтересованы как в качестве, так и в количестве информации.

Вскоре мы уже не сможем полагаться на традиционные критерии качества информации. В цифровой сфере не будет понятия уникальности или дефицита. Останутся только сигнальные категории оправданности информации, её эстетической ценности, взаимосвязи с другими источниками, это те самые критерии, которые в силу своей субъективности требуют участия ученых-экспертов. Таким образом, роль гуманитариев в создании и сохранении архивов, станет такой же важной, как, например, в эпоху Возрождения или в XIX веке. Однако, в отличие от прошлого, когда ученые смело позволяли себе определять ценность найденных источников, сейчас им приходится собирать «на всякий случай» что-то такое, что позже возможно окажется ценным и «своевременным» для кого-то в будущем. Теперь их роль в управлении научными коллекциями и архивами куда более значима, чем когда-либо еще.

Источник: A Companion to Digital Humanities. Preservation. Abby Smith

От автора перевода: к теме статьи отлично подходит вот этот отрывок из романа Анатолия Королева «Быть Босхом»:

«К чему я клоню?

А к тому, что виртуальное чудовище инобытия начинает всплывать со дна вселенной, чтобы проглотить людской род. Еще один век генетики или техногенетики — и человек сможет проживать жизнь на уровне чипа, подключенного к виртуальной реальности. И уверяю вас, в этом развитии общества нет никакой бесчеловечности и дегуманизации.

Второй вариант — реальная судьба в режиме реального времени.

Эту участь выберут единицы, те святые, которые будут творить программное счастье для спящего миллиарда».