Есть задача, нет датасета

Сегодня мы поговорим о том, как часто люди, занимающиеся машинным обучением и искусством, сталкиваются с трудностями. Когда мы разговариваем с кураторами и исследователями, второй вопрос после: «А что делать?» — «А есть ли данные?». Часто ответ отрицательный. Но в некоторых случаях отсутствие размеченных данных не является проблемой, или, по крайней мере, не большой проблемой. Рассмотрим пример.

Представьте, что у вас есть набор гравюр с различными персонажами. И вам хотелось бы уметь автоматически определять, кто именно изображен на каждом из них. Для решения этой задачи обычно применяют детекторы или каскад из сети для семантической сегментации, а затем классификатор. Детекторы просто выделяют объект прямоугольником и предсказывают его класс (в нашем случае имя персонажа). Второй подход попиксельно выделяет часть изображения с персонажем и затем классифицирует эту область — предсказывает, кто именно изображен на этом участке.

В любом случае, для работы этих подходов нужен датасет с указанием персонажей. Но на этом пути нас подстерегают 2 проблемы:

Разметить представительное количество персонажей занимает достаточно продолжительное время;
Нужно много гравюр, и, скорее всего, больше, чем у нас найдется под рукой, или в открытом доступе. Речь идет про десятки тысяч гравюр.

Поэтому родился другой план. В открытом доступе уже есть сеть, которая умеет сегментировать любое изображение, она так и называется Segmentanything или SAM.

Слева исходный рисунок, справа — результат сегментации. Дальше будем смотреть на гравюры.

Все бы хорошо, но такой подход сегментирует все на изображении, а еще и разделяет персонажей на части: ноги, голову, прическу, руки. Есть возможность явно указать, что мы хотим выделить — задать точки, явно принадлежащие объекту интереса.

Но и здесь мы сталкиваемся с вопросом о том, откуда взять эти точки. Мы не хотим заставлять людей заниматься работой, которую может выполнить робот. Для генерации предположений о том, что является объектом разметки для нас, можно использовать сети типа OpenPose. Эти алгоритмы предсказывают расположение «шарниров» в человеческом теле и связывают их в скелет.

Однако, как обычно, все эти алгоритмы хорошо работают на фотографиях и плохо работают на нарисованных изображениях, потому что они просто не были обучены работать с гравюрами.

Чтобы обучить OpenPose работать с гравюрами, нам опять понадобится датасет. Это несмешно, но так и есть. Мы должны пойти глубже (помните мем с Ди Каприо?). Мы сами создадим датасет, не призывая ни одного человека на помощь, разве что, меня.

Последним шагом в нашей работе станет алгоритм ControlNet. Этот алгоритм относится к группе диффузионных алгоритмов (именно они генерируют изображения по текстовому запросу), однако, в этом случае диффузией можно управлять не только при помощи текста, но и с помощью других ограничений, например, скелетона.

Принцип работы следующий: мы берем изображение с человеком, определяем его скелетон и на основе этого скелетона и текста генерируем новое изображение. Вот некоторые результаты, которые мы получили:

Примеры промптов-текстовых запросов:

Bear with crown on the street, satire engraving, 19th century, with colour, no frame, high quality
Avaian girl, satire engraving, 19th сentury, no colour, no frame, high quality
British officer standing on the street, satire engraving, 19th century, with colour, no frame, high quality

Как видите, можно генерировать изображения на любую тему, сохраняя при этом позу персонажа и его расположение в кадре.

К счастью, в наше время существует множество датасетов с готовыми скелетонами, а также мы можем легко найти фотографии людей. Теперь, на основании этого синтетического датасета, можно обучить OpenPose детектировать ключевые точки персонажей на гравюрах. Стоит отметить, что, поскольку у нас полностью сгенерированный датасет, качество на целевых гравюрах может быть не таким хорошим, как если бы мы честно разметили гравюры, но зато нам не нужно ничего делать. Вот что получилось в итоге:

Последний шаг — сегментация персонажей.

Пусть вас не смущает, что персонажи иногда обрезаны. На месте обрезки, скорее всего, столбы, палки, тележки, другие персонажи или что-то подобное.

На этом все. Мы рассмотрели, как при помощи современных алгоритмов, можно решать задачи, даже не имея датасета.

В 2023 году Школа искусств и культурного наследия Европейского университета запустила магистерскую программу “Музейные исследования и кураторские стратегии”. Это первая в России программа, которая объединяет фундаментальные подходы университетского обучения и новейшие достижения в области высоких технологий на базе музея. Для желающих глубже изучить применение технологических инструментов в искусствоведческой практике рекомендуем трек «Музейные исследования и компьютерные науки», где упор делается на инструментах обработки изображений и естественного языка, визуализации и разметки данных. Подробнее о программе: https://eusp.org/programs/museum-research-and-curatorial-strategies

Автор: Олег Лашманов

Теги:ИИ

Добавить комментарий Отменить ответ

О проекте

СОЦСЕТИ

Рассылка

Теги

Темы