Как цифровые коллекции искажают наши представления о реальности
Цифровые коллекции-агрегаторы вроде Google Arts&Culture искажают картину того, что хранится в мировых музеях. Часто это происходит по объективным причинам: музеи не имеют ресурсов проводить оцифровку. Или это может быть связано связано с политикой комплектования коллекции. Не только сегодняшней, но и столетней, двухсотлетней, трехсотлетней давности. Чтобы выяснить, что попало в цифровую коллекцию, занимаются археологией оцифровки: смотрят, что попало в музей, потом что в нем сохранилось, что было описано, что оказалось в каталогах выставок. Например, часто бывает так: что оказывалось в каталогах выставок, то и было оцифровано.
В результате получается нерепрезентативная выборка. Часто на это влияют эффекты агрегирования. Кто-то отправил в цифровой агрегатор, такой как Google Arts&Culture, много изображений, кто-то мало. В результате алгоритмы выбирают для данной географической области те коллекции, где изображений больше. При поисковом запросе «Казахстан» мы получим огромное количество фотографий, демонстрирующих встречу советских и американских космонавтов, или российских и американских космонавтов на Байконуре. Дело в том, что агентство NASA отправило около 160 тысяч изображений в Google Arts&Culture, тогда как учреждения культуры Казахстана отправили гораздо меньше фотографий или не отправили вообще. Эффект агрегирования приводит к тому, что Казахстан и наше представление о культуре Казахстана заменяется совершенно другими культурными знаками и концептами.
При поисковом запросе «Казахстан» мы получим огромное количество фотографий космонавтов и астронавтов
Можно оценивать репрезентативность и сбалансированность с точки зрения продукции, а можно — с точки зрения рецепции, того, как воспринимались произведения искусства. И тут получится совсем другая картина репрезентативности и сбалансированности. Тогда нужно будет включать в цифровую коллекцию или цифровой агрегатор то, что оценивалось критиками, то, что повлияло на современников.
Отслеживание этих всплесков влияния на современников и объектов, которые получились под влиянием этой моды, — это очень интересное направление. Идея про рецепцию принадлежит австралийской исследовательнице Кэтрин Боуд. Это ее предложение — сравнить репрезентативность коллекций культурно-значимых объектов не только с точки зрения продукции, но и с точки зрения рецепции [1].
Как возникает региональное неравенство в оцифровке и доступе к оцифрованному
Если страна нацелена на открытость данных (есть около 10-15 стран, которые за этим следят и с этим работают очень давно), то чаще всего она заинтересована в том, чтобы делать удобной, простой и очень быстрой работу с инфраструктурой данных. Это значит, что такие страны открывают API и дают возможность получить свои данные без ограничений.
А с другой стороны есть страны, которые традиционно не работают в этом направлении. И тогда возникают сложности, которые не связаны с желаниями и намерениями конкретных учреждений культуры — сама бюрократическая система и культурные традиции не дают этой возможности. Например, юг Европы открыт менее, чем север Европы. Активно оцифровывают и публикуют свое искусство Австралия, Новая Зеландия, Тайвань. Страны Балтии довольно открыты, однако их коллекции не представлены на английском языке, и это усложняет международное взаимодействие.
Есть и региональное неравенство внутри одной страны. В России Москва и Санкт-Петербург ожидаемо являются ведущими местами с точки зрения оцифровки и публикаций в сети для библиотек. А вот если речь идет о публикации на собственных сайтах музеев, то Санкт-Петербург как раз уступает провинциальным регионам. В 2015 году в Санкт-Петербурге было оцифровано около 25-30% музейных коллекций, а количество изображений, опубликованных на сайтах, уступало тому, что можно было найти на Дальнем Востоке. Сейчас, что интересно, показывает высокие масштабы оцифровки и представлений изображений Уральский федеральный округ.
Мы сейчас исследуем, как коррелирует представленность этносов в Государственном каталоге музейного фонда Российской Федерации с количеством людей, которые причисляют себя к этому этносу. И получаются действительно очень интересные результаты. Чаще всего встречаются украинцы, татары, башкиры и якуты, но есть и еще около 10 этносов, которые встречаются чаще других.
Какие детские болезни есть у российского цифрового Госкаталога Музейного фонда
На первом этапе оцифровка всегда проводится для учета. Все российские музеи обязаны отправлять данные в Государственный каталог Музейного фонда РФ, и у них есть дедлайны: до 2026 года они должны оцифровать 100% музейных коллекций. В таких условиях у музеев нет возможности сосредоточиться на качестве и изображений, и метаданных. Нет ни компетентных людей, ни техники. Чтобы исправить эту ситуацию, Министерство культуры должно сделать приоритетом качество изображений.
Качество метаданных — не менее важная проблема, и в этом смысле мы тоже сталкиваемся с трудностями, потому что многие объекты плохо атрибутированы изначально. Если вещь не атрибутировалась в тот момент, когда она поступила в музей (это могло быть и 100, и 150 лет назад), то сейчас очень сложно узнать, что же это такое. И здесь нужны очень квалифицированные люди, которые всегда работают с этим типом объектов, изучают литературу и умеют работать только с этим типом. А таких типов вещей в музее может быть огромное количество. Часто музейные работники не атрибутируют экспонаты не потому что не знают, а потому что не уверены на 100%. Ведь всегда может появиться коллега, который поставит под сомнение атрибуцию, и тогда возникнут репутационные сложности.
Для таких случаев есть дисклеймеры. На сайтах британских музейных коллекций иногда пишут: «если у вас есть сомнения по поводу атрибуции, свяжитесь с нами, и мы обсудим возможные изменения». Но у нас такое еще не принято.
Конечно, всем нам хотелось бы переделать Госкаталог и сделать его прекрасным инструментом, который с его 30 миллионами объектов стал бы великолепным способом посмотреть культуру этносов России. Но, и с точки зрения качества изображения, и с точки зрения метаданных, и с точки зрения классификационных фильтров, которые сейчас существуют в Госкаталоге, он сейчас на самой начальной стадии.
Сейчас идет работа по нормализации данных в госкаталоге [2]. Это работа не года и не двух. Может, лет через десять у нас будут нормализованные данные и хорошие фильтры в Госкаталоге, и тогда все мы порадуемся, увидев, как прекрасно мы можем разбросать эти карты и перетасовать их, и увидеть новые сочетания и новые контексты.
Как выглядит цифровая коллекция мечты
Коллекция Metropolitan Museum of Art в Нью-Йорке в каком-то смысле приближена к коллекции мечты — прекрасное качество для многих изображений, четкие фильтры, очень четкие параметры: что, где, когда и где хранится. Даже черно-белые изображения сделаны в очень хорошем качестве, это нормализованные, стандартизованные метаданные.
Metropolitan Museum of Art сопровождает объекты текстовыми описаниями, которые имеют отношение к географии, времени и подробному рассказу о типе объекта, и самое главное, к выставкам, то есть к контексту музейного предмета. А Госкаталог дает только название. Текстовые описания не влияют на результаты поиска. Мы получаем только то, что оказывается в названии, в географии и во времени, которые есть в метаданных. Госкаталог решает учетные задачи, а музей документирующий контексты, динамику значения предмета во времени и пространстве — исследовательские, образовательные и общечеловеческие задачи.
Как может быть по-разному представлена одна культура в разных цифровых коллекциях
Мы исследовали, как представленность этнических меньшинств привязана к тому, как зафиксированы эти объекты в базах данных на примере евреев. По запросам «еврей», «еврейский», «иудей» мы получили около 700 результатов для Metropolitan Museum of Art (из 4000 объектов) и 7000 результатов для Госкаталога (из 25 миллионов объектов). Но если Metropolitan Museum of Art вписывает евреев в европейский культурный канон, дает обширную линию времени, начиная от Месопотамии и до конца 20 века, то для Госкаталога мы получили узкое географическое распространение, в основном Россию, и небольшой период времени, последние 300 лет, начиная с 18 века и до наших дней.
Это значит, что представление о евреях в России не выходит за пределы нашей страны, в то время как Metropolitan Museum of Art распространяет представление о евреях на древние цивилизации. С другой стороны, мы увидели, что для госкаталога слово «еврей» часто означало евреев после революции, сразу после 1917 года. Это было связано с тем, что мы получили очень много результатов, связанных с Государственным еврейским театром, которым долгое время руководил С.М. Михоэлс, с книгами, которые были переведены с еврейского или на еврейский язык, и с объектами, связанными с еврейской музыкой, литературой или документами, написанными на еврейском языке.
При этом «еврейский» для Госкаталога значит «написанный на идише» (язык германской группы, разговорный язык, на котором говорили евреи в Центральной и Восточной Европе до середины двадцатого века). И это значит, что те объекты, которые мы получили, были связаны с высокой культурой на идиш, а не с книгами, которые переводились с иврита или на иврит, древнееврейского языка, связанного в контексте девятнадцатого и первой половины двадцатого века с религиозными текстами. На этом примере мы видим, насколько зависимость от пути (path dependence), которую связывают с экономическими изменениями в научной литературе, проявляется в государственных учреждениях: вот прошло сто лет, а то, что мы получаем по запросу «еврей» все еще соответствует представлениям о евреях столетней давности, тому, что сформировалось в 20-30-е годы прошлого века.
При этом в Metropolitan Museum of Art есть все про европейский канон, но там ничего нет про идиш, потому что раньше в Западной культуре идиш воспринимался языком маргинальных сообществ, а сейчас это представление изменилось.
Искусственный интеллект на страже толерантности
Коллеги из центра цифровых гуманитарных наук, в Академии наук и искусств Нидерландов сейчас работают над проектом «Машинное обучение, искусственный интеллект и культура»[3]. Они ищут проявления тенденциозности в текстовых данных культурных коллекций — уничижительные названия этносов, слова, которые мы бы сейчас не употребили, то, что сейчас вызвало бы резкий протест. Они предполагают с помощью ИИ найти такие описания и давать рекомендации кураторам коллекций, как их устранить или убрать. И это не совсем правильно. Потому что ведь те вещи, которые зафиксированы в этих текстах, это историческое свидетельство. Поэтому данные совсем стереть и убрать было бы нехорошо. В этом смысле была бы полезна некоторая археология описаний, когда мы видим слои меняющихся представлений об этносах и нациях и их соединение — многомерная картина, где разные контексты переплетаются друг с другом. Подобную рекомендацию для информационной среды в целом дает недавний отчет Лондонского королевского общества, ведущего научного общества Великобритании. В отчете предлагается не устранять неправильную, ошибочную информацию, опубликованную в цифровой среде, а публиковать последующие мнения, в которых предлагаются поправки и изменения. Авторы отчета полагают, что информационным источникам можно доверять только в тех случаях, когда есть публичное обсуждение разных мнений [4].
Нидерландские ученые предлагают привлечь представителей этносов, о которых идет речь, чтобы они предложили новые способы описания объектов. Но это ведь тоже будет не полная картина. Каких бы стейкхолдеров мы не привели, мы все равно получим сито, которое не даст все дырки нужного размера [5]. Что-то останется за пределами просеянных вещей.
Чего не дает оцифровка: доступность культуры vs. погружение в культуру
Усталость от цифрового и сомнения по поводу реального повышения доступности культуры после оцифровки — это нормальная реакция в наши дни. Интернет сделал свое дело. В начале века это казалось потрясающим открытием — возможность увидеть то, о чем мы читали в книжках. А сейчас нам кажется, что мы хотим большего, мы хотим того, чего не можем увидеть в привычной картинке на экране.
Но мне кажется, что больше этого сейчас, на том этапе, который мы переживаем, мы и не увидим. Речь даже не о том, чтобы сделать культуру доступной в привычном нам понимании: увидеть на экране музей, который мы не можем посетить, или коллекции графики, которые обычно не выставляются. Здесь речь о доступности контекстов, в которые мы можем погрузиться: соединить те картинки, которые мы видим, с похожими и проследить динамику. Задать вопросы на уровне человека, который не является специалистом. Вот он видит картинку, и появляются вопросы совсем простые: вот кружево, вот прическа, вот поза, вот позиция рук, вот позиция головы — а насколько давние это все явления? Когда они вошли в моду? Это явление, которое присуще этой части Европы, или это шире, чем одна страна? Ответы мы получим, когда увидим много картин, или когда увидим агрегированные картинки, настроенные фильтрами и алгоритмами.
Я не хочу утверждать, что ответы на эти вопросы, если они получены в результате машинной обработки, всегда правильные. Это тот же эффект, что и в ситуации пристального чтения и дальнего чтения — вероятно, нужно сочетать и то, и другое. Но эти вопросы можно задавать и на уровне обычного пользователя, и на уровне исследователя. И в этом смысле оцифровка — это не только картинка. Это картинка с метаданными, с описанием, с контекстами. И вот когда мы соединяем разные контексты, тасуем эти картинки неожиданным образом и задаем неожиданные вопросы — это уже совсем иной уровень, не доступности, а погружения в культуру и, самое главное, развитие процессов познания.
Экономика знания — это такое время, когда каждому человеку хочется быть частью культуры или заниматься творчеством. Творчество и уникальная вещь — это единственное, что ценно в нашу эпоху массовой репродукции. И вот когда человек после своего рутинного дня задал вопросы и за десять-двадцать минут получил на них ответы, над которыми он будет думать, и появятся новые вопросы — вот это уже погруженность и нарратив. Есть люди, которые ходят в музеи не столько за научными исследованиями, сколько за источником вдохновения и творчества. Это новый сегмент пользователей — люди, которые занимаются творчеством, их много, и становится все больше. Например, проект «Орнамика» предлагает рассылку векторных орнаментов, которые дизайнеры могут использовать в своей работе.
Какие есть минусы у оцифровки культурных объектов
Про отрицательные стороны двумерной оцифровки я ничего не придумала. А при трехмерной оцифровке есть несколько вещей, которые могут восприниматься, как отрицательные.
Для специалистов в трехмерных моделях не хватает подробностей, а неспециалистов может ввести в заблуждение иллюзия достоверности.
Небольшие искажения на уровне формы, текстуры, те, которые делаются для того, чтобы модель была не такой тяжелой и могла использоваться мобильными приложениями, воспринимаются специалистами, как неправильные.
Для трехмерных моделей обсуждается проблема фотореалистичных и не фотореалистичных моделей [6]. Фотореалистичные модели, которые мы видим, создают иллюзию присутствия, иллюзию фотографии. Но если это трехмерная модель старинной архитектуры или старинных исторических пейзажей, мы же на самом деле не знаем, как это было. Вся эта конструкция стоит на тех нескольких параметрах, которые есть. В результате получается, что пользователю навязывают представление создателя модели об исторической реальности. Не фотореалистичная модель — это тоже представление автора о реальности.
Видео — это еще более навязанная форма. По сравнению с трехмерной моделью или с двумерным изображением точка зрения автора еще больше фиксирована в случае с видео. Наш фокус привязан к фокусу оператора, а это не всегда правильно.
Ссылки:
- Bode K. A World of Fiction: Digital Collections and the Future of Literary History. Ann Arbor: University of Michigan Press; 2018.
- Глазунов Е. В., Орехов Б. В. Унификация данных музейного Госкаталога РФ. Сибирский антропологический журнал, Россия. 2020. Т. 4. № 3. С. 154-168; Филипс, К., Тушканова, О и др. Госкаталог: делаем поиск возможным, Европейский университет в Санкт-Петербурге, Пандан, 2022. Госкаталог
- Cultural AI
- https://royalsociety.org/-/media/policy/projects/online-information-environment/the-online-information-environment.pdf
- Сравнение изменения подходов к каталогизации, подбора новых полей метаданных и создания онтологий с изменением отверстий для просеивания и отбора принадлежит выдающемуся историку и археологу Юлии Абрамовне Лихтер.
- Isto Huvila (2021) Monstrous hybridity of social information technologies: Through the lens of photorealism and non-photorealism in archaeological visualization, The Information Society, 37:1, 46-59, DOI: 10.1080/01972243.2020.1830211