Имперские замашки цифрового колониализма
Культурные данные становятся доступнее для развлечения и образования: с каждым днём всё больше музеев дают бесплатный онлайн доступ к своим коллекциям. Но несмотря на то, что огромное количество изображений доступно по разным каналам, — в том числе в цифровых библиотеках и агрегаторах данных культурного наследия — некоторые жанры, культуры и географические регионы представлены недостаточно. А если данные по какой-то теме отображены в большем объёме, то к ним будет проще и лучше доступ, и они будут лучше изучены. Таким образом, GA&C непреднамеренно создаёт более полную и развёрнутую картину для тех стран, которые в нём представлены шире, и более плоскую и однобокую — для тех, которые представлены беднее.
Кто вы, Мистер GA&C?
GA&C — это крупный агрегатор культурного контента, целью которого было сделать культуру более доступной. На сегодняшний день проект содержит около шести миллионов изображений произведений искусства в высоком разрешении и представляет произведения искусства почти всех стран-членов ООН. Сайт проекта до 2018 года посетили около 50 миллионов пользователей, поэтому он может стать важной площадкой для исследований структуры и организации визуального культурного объекта.
Создание подобного агрегатора в целом можно сравнить с созданием лингвистического корпуса. Корпус считается репрезентативным, если в нём содержатся все части лингвистического разнообразия. При этом каждая часть этого разнообразия должна быть представлена в той пропорции, в которой она представлена в языке — тогда корпус будет ещё и сбалансированным. Если же в наборе данных корпуса есть искажения, то это может повлиять на результаты дальнейшего анализа. Подобные казусы порой также случаются с музейными коллекциями.
В случае агрегатора культурных данных такие перекосы могут привести к статистически предвзятым представлениям знания и его политической субъективности. Это, в свою очередь повлияет на исследования и доступ к культурному наследию, а также на подходы к машинному обучению, основанные на существующей цифровой информационной среде.
Царь, очень приятно, царь
Если в представлении цифровых коллекций культурного контента присутствует некоторая предвзятость, то мы можем говорить о концепции цифрового культурного колониализма. Авторы статьи рассматривают колониализм как некую напряжённость между двумя сущностями — например, между условным Севером и условным Югом или между центром и периферией.
Предвзятость в представлении цифровых коллекций не является целью или задачей GA&C — теоретически, любой музей или страна могут предоставить больше изображений. Искажения связаны с возможностями музеев по оцифровке и их методами, их культурными приоритетами, а также политикой онлайн-наследия. Также роль играют редакционные принципы GA&C, согласно которым, вероятно, уже более или менее известный и популярный контент с большей вероятностью попадёт в агрегатор. По сути, цифровой культурный колониализм наследует предубеждениям имперской эпохи и отражает принципы отбора информации, доставшиеся нам — и участвующим музеям — от прежних времён.
Россия vs (?) Франция
Авторы статьи решили проверить теорию о цифровом культурном колониализма в GA&C на примере коллекция двух стран: России и Франции. В обеих странах находится внушительное количество музеев и экспонатов (около 2300 музеев и 80 млн экспонатов для России; около 1224 музеев и 121 млн экспонатов для Франции), музеи обеих стран включены в исследование 18 самых влиятельных музеев мира. Наконец, статистические данные о фондах музеев обеих стран доступны в государственных источниках: Государственного каталога музейных коллекций в России и Открытой платформы наследия во Франции — это позволяет сравнивать с тем, как те же коллекции представлены в GA&C.
Сначала необходимо было подсчитать количество коллекций и произведений искусства из всех культурных учреждений страны, опубликованных в GA&C. Далее выяснить, сколько музеев оцифровали свои коллекции и определить географическое расположение музеев. Следующий шаг — исключить из выборки всевозможные частные коллекции и коллекции отдельных художников, чтобы остались только коллекции государственных музеев. В результате для России осталось 32 музея и 2844 объекта, а для Франции — 21 музея и 6575 объектов для исследования.
Финальный этап — сравнить по интересующим параметрам (жанры, география) данные из GA&C с данными из государственных источников.
И вот, что у них получилось
Если сравнить расположение 32 музеев, отобранных для исследования, с 2189 музеями, зарегистрированными в Государственном каталоге музейных собраний РФ, то окажется, что география музеев с оцифрованным контентом широка и охватывает практически все регионы страны, в то время как в GA&C представлены лишь музеи из столицы и центральной части страны. Также выяснилось, что произведения искусства ХХ века составляют порядка 60% коллекций, а на произведения, созданные до ХII века приходится меньше 1% изображений. В целом получается, что пользователи GA&C в российской части коллекции с большей вероятностью увидят картины и фотографии ХХ века из центральной части страны, чем произведения искусства других жанров и временных периодов из периферийных музеев.
Схожая картина и во французской коллекции. Большая часть изображений — из парижских музеев, при этом вообще не представлены провинции, расположенные далеко от Парижа. Изображения произведений и авторы ХХ века явно доминируют. И тот факт, что выводы для российской и французской коллекции примерно одинаковы, говорит о том, что дело здесь не в стране, а в редакционных принципах, по которым отбирается контент.
Принципы и методы отбора не публикуются открыто, поэтому никто доподлинно не знает, как же отбираются произведения для GA&C. Но можно сделать выводы, что у музеев запрашивают определённый контент: например, французский Год моды, который относится к первой половине ХХ века. Есть предположения, что музеи делятся тем контентом, который, по их мнению, должен быть представлен для максимально широкой аудитории. И таким образом музеи лишь усугубляют уже существующую в агрегаторе предвзятость данных.
Баланс и репрезентация
Несмотря на то, что данные в GA&C явно несбалансированы, и при их анализе можно выявить определённые предубеждения в отборе, агрегатор нельзя назвать нерепрезентативным. Да, на музейные объекты из всего лишь пяти стран (США, Нидерланды, Великобритания, Италия, Южная Корея) приходится 93,4% контента. Но при этом среди этих объектов можно найти объекты практически для любой страны. То есть, если у какой-то страны в агрегаторе нет представительства, она может быть представлена через свои объекты в музеях других стран.
Тем не менее, данные о менее заметных культурах всё-таки искажены, их меньше, и они теряются на фоне более крупных культур.
В качестве шагов к решению проблемы авторы предлагают задействовать политику открытого доступа, музеям стать более открытым к тому, что видеть свои объекты на внешних платформах, а для Google — публиковать свои методологии и принципы отбора, чтобы сделать более прозрачным процесс попадания изображений в агрегатор.
Источник:
Больше об оцифровке культуры и цифровом колониализме можно прочитать в интервью с Инной Кижнер.