Напомню: в прошлой серии мы добыли данные и изображения живописных произведений из Госкаталога. В нашем распоряжении — сами изображения и данные об авторах, местах хранения, описания и так далее. Что можно делать с такими данными, мы рассматривали в этой заметке.
Сейчас мы обновили наш набор данных, так как на портале открытых данных вышло обновление. К сожалению, по-прежнему архив «битый», поэтому мы используем API для получения данных.
Для начала давайте посмотрим, что у нас с авторами. Всего у нас есть 95861 уникальных авторов. А для того, чтобы узнать, как они представлены в собраниях, построим гистограмму.
Первая строка гистограммы — это не ошибка, действительно, множество записей просто не содержит никакой информации об авторе. Следующие по популярности — это «Неизвестный мастер» и «Неизвестный художник». Если объединить всех «неизвестных» в один тип, то получится, что примерно для 32% живописных полотен автор неизвестен. Давайте посмотрим распределение только для картин с известным автором.
На графике изображены только 20 авторов с наибольшим представительством. Если же учесть все картины, то получится, что в среднем на каждого автора приходится по 4,4 картины, а медианное значение 1. Да, сейчас статистика не совсем точна. А все из-за того, что «Глазунов Илья Сергеевич», «Илья Сергеевич Глазунов» и «Глазунов И.С.» для нас разные авторы. Но за неимением возможности точно удостовериться, кто есть кто, будем пользоваться тем, что есть.
С работами самых популярных живописцев можно ознакомиться прямо на сайте Госкаталога:
Давайте теперь попробуем понять, что изображено на картинах, просто по их названиям и описаниям. В первом приближении неплохо было бы разбить все изображения по жанрам, для этого будем использовать их названия и описания. Тут мы не будем придумывать каких-то хитрых эмбеддингов (векторных описаний текста) или использовать мешки слов, а просто посмотрим на ключевые слова. Статистика такова:
Если убрать «Другое» (пожертвовав 78% данных), то распределение по жанрам выглядит так:
Как видно из графиков, большая часть описаний не дала нам информации о жанре картины. В таком случае, мы попробуем другой подход и будем угадывать жанр по изображению. Для этого воспользуемся техникой zero-shot learning и предобученой сетью CLIP (как устроена сеть и почему она работает, мы поговорим как-нибудь в следующий раз). Классы изображений оставим прежними. Прямо сейчас мы оставим без ответа вопрос о точности алгоритма, но быстрая проверка глазами (не очень-то научный метод), говорит нам о том, что алгоритм работает неплохо. Смотрите сами, это портреты по мнению алгоритма:
Вроде все так, но там точно есть ошибки. На всякий случай, вот промпты (так называют запросы к сети), которые я использовал при классификации изображений:
clip_labels = [
"a photo of art work in orthodox icon manner",
"a photo of art work in portrait manner",
"a photo of art work in landscape painting manner",
"a photo of art work in still life manner",
"a photo of art work in fresco manner",
"a photo of something"
]
На что снимают госкаталог
И тут я подумал: а может, я могу еще что-то узнать из фото? Вообще, все фото в Госкаталоге, которые мне попадались — jpeg изображения. У таких изображений есть заголовок. В этом заголовке может храниться много информации, но для нас сейчас предметом изучения будет exif секция. Из нее, например, можно узнать, на какой аппарат был сделан снимок, а иногда с какой выдержкой и даже точками фокусировки. Давайте же скорее узнаем, на что снимают люди в музеях.
Вывод очевиден. Подавляющее число произведений снято на камеру. Стоит отметить, что не всегда это профессиональные камеры, чаще всего это «мыльницы». А в части фото я не смог получить exif, там его просто не было. Чаще всего это означает, что изображение готовили к публикации в интернете или обрабатывали в софте, который ничего не пишет в exif.
На этом мы пока остановимся. Как говорится, stay tuned.
В 2023 году Школа искусств и культурного наследия Европейского университета запустила магистерскую программу “Музейные исследования и кураторские стратегии”. Это первая в России программа, которая объединяет фундаментальные подходы университетского обучения и новейшие достижения в области высоких технологий на базе музея. Для желающих глубже изучить применение технологических инструментов в искусствоведческой практике рекомендуем трек «Музейные исследования и компьютерные науки», где упор делается на инструментах обработки изображений и естественного языка, визуализации и разметки данных. Подробнее о программе: https://eusp.org/programs/museum-research-and-curatorial-strategies