Зачем компьютерные науки изучают уличную моду? Можно ли с помощью цифровой базы изображений одежды предсказывать появление и угасание новых стилей? Правда ли, что женский костюм отражает экономическое состояние страны? На примере японского цифрового архива моды CAT STREET рассказываем об исследованиях на стыке антропологии и машинного обучения.
Иллюстрация: Ксения Здоровец
Анализ трендов является одной из актуальных тем в исследовании моды, и он интересует не только стилистов, но и учёных. Например, исследователи в области компьютерных наук разрабатывают алгоритмы, которые могли бы предсказывать будущие тенденции или оценивать долгосрочные тренды [1], [2], [3]. Основная цель таких работ — помочь производителям одежды более эффективно планировать новые коллекции и совершенствовать рекомендательные системы в интернет-магазинах. Чтобы добиться этой цели, исследователи создают базы данных изображений, аннотируя различные аспекты, такие как цвет, ткань, форма, текстура [4], [5], [6]. Эти данные становятся основой для алгоритмов, которые могут предсказывать предпочтения потребителей и выявлять новые тренды.
Однако у учёных может быть и другая, менее прикладная, задача: изучать моду как социальное явление. Мода служит формой самовыражения, которая подвержена воздействию различных факторов, включая культуру, экономическую ситуацию, исторические события, социальный статус, коммьюнити [7]. Авторы одного из подобных исследований собрали базу данных изображений с 1990 по 2009 год, чтобы изучить как винтажная мода повлияла на модные стили с 2000 по 2014 год [2].
Однако люди, входящие в состав разных сообществ, имеют свои характерные модные стили. Более того, каждое такое сообщество может занимать определённую территорию. Примером может служить модный стиль токийского квартала Сибуя, который стал популярен среди девушек благодаря тому, что они часто посещают торговые центры, расположенные здесь. Изображения, сгруппированные по десятилетиям, не показывают, как люди выбирают стили в своей жизни. Для таких исследований нужны базы данных изображений повседневной одежды с аннотациями по местоположению на уровне улиц. Именно для этого создана база CAT STREET.
Магазины и торговые центры в окрестностях станции Сибуя. Источник: Mapple.net
На ранних этапах исследования модных трендов учёные вручную анализировали характеристики вечерней одежды, используя модные журналы XIX–XX вв. [9], [10], [11]. Однако, помимо того, что данные работы фокусировались на определённом виде нарядов, они были очень трудоёмкими и требовали много времени. Чтобы улучшить ситуацию, в исследовании Сатоси Такахаси (Satoshi Takahashi), Кэйко Ямагути (Keiko Yamaguchi) и Асука Ватанабэ (Asuka Watanabe) [12] предлагается использовать машинное обучение. Этот подход позволяет алгоритмам анализировать данные и имитировать ручные процессы обработки на основе примеров, что делает анализ модных трендов более точным, эффективным и значительно упрощает работу с большими цифровыми архивами. Так была создана база данных CAT STREET.
Исследователи сами собирали фотографии (с 1980 по 2017 г.) уличной моды на торговых улицах Токио, таких как Харадзюку и Сибуя. Также они включили в исследование фотографии, сделанные в 1970-х годах сторонней организацией, с метками по месяцам. Здесь стоит отметить, что фотографии 1970-х гг. с временными метками по фону соотносились с фотографиями 1980-х гг. с метками по улицам. Таким образом, с добавлением тегов база данных охватывает период с 1970 по 2017 год.
Авторов интересовала только женская мода, поэтому они вручную классифицировали изображения по полу, оставив только фотографии женщин. Некоторые снимки 1970-х годов были чёрно-белыми, поэтому все фотографии были переведены в градации серого для унификации цветового тона.
Так как фотографии уличной моды часто содержат много шума, что затрудняет точное определение комбинаций одежды, авторы также сделали предобработку изображений с использованием алгоритма OpenPose [13]. Это помогло им определить очертания силуэтов. Они удалили часть фонов и обрезали головы субъектов.
Результатом работы стала база данных CAT STREET, которая содержит 14 688 изображений с модных улиц Токио, отражающих реальную повседневную моду женщин между 1970 и 2017 годами.
Обзор данных CAT STREET. Источник [12]
В качестве обучающей выборки была выбрана база FashionStyle14 [14], состоящая из 14 классов стилей (признаны экспертами как представители современных модных тенденций 2017 г.) и примерно 13 тысяч изображений. Модель кластеризации позволила измерить долю каждого стиля в разные годы и выявить, когда начали набирать популярность разные стили.
Примеры изображений FashionStyle14 и примеры изображений в CAT STREET, классифицированные по различным стилям с использованием модели кластеризации стилей. Источник [12]
Затем были обучены четыре структуры глубокого обучения (DL) в качестве вариантов для модели кластеризации моды: InceptionResNetV2 [15], Xception [16], ResNet50 [17] и VGG19 [18]. В качестве начальных весов они использовали веса, обученные на ImageNet [19], и дообучили их на FashionStyle14, применяя алгоритм стохастического градиентного спуска с коэффициентом обучения 10⁻⁴. Для дообучения использовался метод k-кратной перекрёстной проверки с k, равным 5.
Алгоритм стохастического градиентного спуска (SGD) — это метод, который используется для обучения нейронных сетей. Его цель — минимизировать ошибку модели, обновляя её параметры на основе данных. Представьте, что вы ищете самый низкий холм в тумане. Вы не смотрите на всю местность, а делаете маленькие шажочки, чтобы нащупать холмики, и смотрите под ноги, просто чтобы понимать, туда ли ты идёшь. Если да, вы продолжаете идти в этом направлении, а если нет, меняете его. Коэффициент обучения как раз и определяет, насколько большие шаги вам нужно делать. Если шаги слишком большие, то можно «перепрыгнуть» холм, пропустить нужный. А вот если шаги маленькие, нужно будет много времени, чтобы добраться до цели. В нашем случае значение 10 в минус 4 степени показывает, что шаги очень маленькие. Собственно поэтому модель так аккуратно настраивает свои параметры, не «перепрыгивая» слишком далеко.
Метод k-кратной перекрёстной проверки (k-fold cross-validation) — это способ оценки качества модели на разных поднаборах данных. Пятикратная проверка означает: (a) имеющиеся данные делятся на пять равных частей (или fold), (b) модель обучается пять раз, при этом каждый раз она использует 4/5 для обучения и 1/5 для тестирования. Так каждый сегмент данных используется для проверки модели, что позволяет получить более надёжную оценку её производительности, (c) результаты тестирования по всем пяти запускам объединяются, и берётся среднее значение метрик, чтобы оценить, как хорошо модель работает в целом.
В результате InceptionResNetV2 показала наивысшие F1-меры среди структур глубокого обучения для большинства модных стилей. Её точность составила 0,787, что выше эталонной точности 0,72. Поэтому исследователи выбрали InceptionResNetV2 в качестве модели кластеризации модных стилей в этом исследовании.
F1-мера — это метрика, используемая для оценки качества модели, особенно в задачах классификации. Она комбинирует два важных показателя: точность (precision) и полноту (recall). Точность показывает, сколько из всех предсказанных положительных случаев действительно являются положительными. Полнота показывает, сколько из всех реальных положительных случаев было правильно предсказано моделью. Таким образом, F1-мера принимает значения от 0 до 1, где 1 означает идеальное качество (максимальная точность и полнота), а 0 — полное отсутствие качества.
Полученную модель кластеризации исследователи применили к архиву CAT STREET. Она состояла из пяти отдельных моделей, так как использовалась пятерная перекрёстная проверка при обучении нейронной сети, о которой говорилось ранее. Каждая из пяти моделей оценивала долю определённого стиля для изображения. Чтобы проверить, насколько надежны эти модели в воспроизведении долей стилей, исследователи проанализировали временные корреляции между пятью моделями. На графике ниже показаны средние коэффициенты корреляции для модных стилей. Большинство стилей имеют высокие коэффициенты корреляции, превышающие 0,8, и стандартные ошибки небольшие. Однако некоторые стили, такие как Dressy, Feminine и Gal, показали низкие корреляции, так как изначально имели маленькие доли.
Средние коэффициенты корреляции среди пяти моделей для стилей моды. Conserv. — это сокращение от Conservative (рус. «консервативный, старомодный»). Источник [12]
Эти результаты подтверждают, что модель кластеризации модных стилей является надёжным инструментом для анализа временных паттернов присутствия каждого стиля. На графике ниже представлены средние значения долей стилей за период с 1970 по 2017 год. Так как не было изображений за 1997 и 2009 годы, исследователи заменили нули средними значениями соседних показателей и использовали трёхлетнее скользящее среднее.
Средние значения долей стилей с 1970 по 2017 г. Источник [12]
Социальные и экономические условия влияют на формирование социальной идентичности и на способы её выражения, в том числе в стилях одежды. Иногда люди хотят повысить свой социальный статус и покупают качественные вещи от люксовых брендов как символ богатства.
Чтобы проверить, есть ли связь между внешними обстоятельствами и долгосрочными изменениями в модных стилях, авторы изучили, как экономические условия влияют на стиль Conservative. Он характеризуется классическими элементами одежды, качественными материалами и сдержанными цветами, такими как чёрный, тёмно-синий и серый. Он акцентирует внимание на элегантности и простоте, часто включая офисную одежду, строгие силуэты и предметы роскоши.
Исследователи использовали данные о доле Conservative в качестве зависимой переменной и провели однофакторный анализ дисперсии (ANOVA), который позволил оценить, как меняется доля стиля в разные экономические периоды в Японии. Также, чтобы проверить связь между средней долей Conservative и темпами роста валового внутреннего продукта (ВВП) в Японии, была применена векторная авторегрессионная (VAR) модель. Для VAR модели использовались данные с 1970 по 2008 год. Результаты анализа показали, что средние доли Conservative различаются в периоды экономических спадов и подъёмов: когда экономика растёт, люди чаще выбирают стиль Conservative.
Однофакторный анализ дисперсии (ANOVA) — это статистический метод, который позволяет сравнивать средние значения между двумя или более группами. Он помогает определить, есть ли значимые различия между группами по определённой переменной. Например, ANOVA может показать, как различные экономические условия влияют на долю определённого модного стиля.
Авторегрессионная (VAR) модель — это статистический инструмент, который анализирует взаимосвязь между несколькими временными рядами. Она помогает понять, как изменения в одной переменной (например, в ВВП) могут влиять на другие переменные (например, долю стиля Conservative) с течением времени. VAR модель учитывает, что значения переменных зависят не только от текущих факторов, но и от их прошлых значений.
В Токио есть две знаковые улицы, ориентированные на моду: Харадзюку и Сибуя. Они расположены близко друг к другу, но на этих улицах мы можем увидеть разные модные тренды. Например, один из характерных модных стилей Харадзюку — Каваии-кэй (Kawaii-kei) [21], который подчеркивает миловидность и игривость, включает яркие цвета, пышные юбки и забавные аксессуары, часто вдохновлённые аниме и мультяшными персонажами.
Одним из характерных модных стилей Сибуи является Gal, представляющий собой слегка сексуальную моду «девчонки по соседству» (slightly sexy homegirl fashion) [20].
Исследователи сравнили повседневные модные стили на этих улицах с помощью CAT STREET, чтобы понять, как они возникают и распространяются.
Например, на графике ниже демонстрируется стиль Fairy (рус. «фея»), который появился в Харадзюку в конце 2000-х и исчез в начале 2010-х. Этот стиль включает пышные платья, напоминающие фей. Хорошо заметно, что он проник и в район Сибуя, но пользовался гораздо меньшей популярностью.
Проявление стиля Fairy на улицах Токио. Источник [12]
На следующем изображении представлены примеры стиля Gal, который возник в 1995-1996 гг. одновременно и в Харадзюку, и в Сибуя благодаря поп-певице Намиэ Амуро. Анализ показал, что в Сибуя он сохранился, а в Харадзюку исчез и вернулся в 2012 году с небольшими изменениями.
Четыре фотографии слева были сделаны в 1995–1996 гг. на Харадзюку (i, ii) и на Сибуе (iii, vi). Фотографии сняты в 2000-х гг. на Харадзюку (v, vi) и на Сибуе (vii, viii). Источник [12]
Проявление стиля Gal на улицах Токио. Источник [12]
Ещё один пример — интерес к ретро-стилю. Он имеет много подстилей, в зависимости от эпохи (мода 60-х, 70-х и 80-х). На графике ниже можно заметить небольшие подъёмы в начале 1980-х и конце 1990-х, которые указывают на возрождение моды. Исследователи отметили, что необходимо больше данных, чтобы выяснить, какие именно подстили появились в эти периоды.
Проявление ретро-стиля на улицах Токио. Источник [12]
Исследование повседневной моды в Японии значительно продвинулось благодаря созданию цифрового архива CAT STREET. Этот ресурс дает возможность изучать историю уличного стиля Токио и использует машинное обучение для анализа трендов. С его помощью удалось подтвердить, что экономические условия влияют на характер стиля одежды, а также обнаружить отличия между разными сообществами.
CAT STREET позволяет исследователям изучать ещё не решенные вопросы, используя другие количественные методы анализа, такие как кластеризация, чтобы выявить модные стили, которые присутствуют в повседневной жизни людей. Этот архив может помочь расширить исследования моды в области компьютерных наук и других дисциплинах.
«Лучше пешком», — говорим мы себе летом и выбираем прогулки непривычными маршрутами. А если путь не знаком — поможет приложение-навигатор.…
SpaceX, Anthropic и OpenAI готовятся стать публичными компаниями, Google и Microsoft выпустили новые модели — рассказываем, что произошло в мире…
Японская культура повседневности отличается вниманием к визуальной эстетике, типографике и деталям коммуникации. Поэтому даже самые обычные документы — билеты, рекламные…