Кадр из сериала «Друзья» с автоматически распознанными лицами и объектами
Компьютерный анализ текстов в цифровую эпоху — обычное дело. Под рукой миллиардные коллекции оцифрованных книг с удобными интерфейсами, да и свой корпус собрать несложно… Хочешь — сравнивай частотности слов и конструкций, хочешь — автоматически извлекай социальные сети героев.
Другое дело — видео. Визуальная культура не менее интересна, чем текстовая. Последние 50 лет кино и видео явно популярнее у массового потребителя, чем какой угодно текст. Но нельзя просто так «поискать» что-нибудь в сериале, даже если он лежит у тебя на жестком диске.
То есть было нельзя. А теперь — можно.
Глазастые нейросети
Компьютерное зрение (computer vision) — это все, что связано с автоматическим превращением картинки в смысл. Например, превращение отсканированного документа в текст с помощью FineReader. Или определение лиц камерой слежения. Или диагностика болезни по рентгену легких без участия человека. Или распознавание дорожных знаков и велосипедистов в беспилотном автомобиле.
Прорыв в компьютерном зрении случился после прихода искусственных нейронных сетей. Сегодня сверточные (convolutional) нейросети решают сложные зрительные задачи не хуже человека — и при этом быстрее и дешевле. Например, недавно выяснилось, что нейросеть может отличить злокачественные формы рака кожи по фотографии как минимум с той же точностью, что и консилиум из 21 квалифицированных дерматологов. Похожие результаты есть для диабетической ретинопатии, обнаружения метастаз в лимфоузлах и диагностики пневмонии.
Многие инструменты компьютерного зрения опубликованы с открытым исходным кодом: их можно использовать и переделывать под свои нужды. Благодаря этому компьютерное зрение применяется не только в медицине, разработке беспилотников и системах слежения, но и в исследованиях медиа и кино. А еще мы знаем, как нейросети могут видеть людей сквозь стены. Радиоволны в сочетании с искусственным интеллектом могут распознать скелетообразные силуэты людей, находящихся за стеной. Эту технологию уже используют для мониторинга активности людей с синдромом Паркинсона.
Нейросети смотрят сериалы
Исследовательская группа Distant Viewing использует алгоритмы распознавания лиц и другие инструменты компьютерного зрения, чтобы исследовать сериалы. Вот тут можно посмотреть, как их нейросети опознают героев в сериале «Друзья»:
Недавно исследователи из Distant Viewing проанализировали два классических американских ситкома — Bewitched (у нас его показывали в конце 2000-х под названием «Моя жена меня приворожила») и I Dream of Jeannie («Я мечтаю о Джинни»).
Bewitched рассказывает о жизни офисного работника Даррина, который случайно женился на ведьме Саманте. Сериал вышел на телеканале ABC в 1964 и стал сверхпопулярным.
Конкурентам с NBC пришлось реагировать — и в 1965 появился I Dream of Jeannie. В нем астронавт Тони находит бутылку с девушкой-джинном, которая немедленно влюбляется в него.
Оба сериала построены на одной сюжетной конструкции: у обычного человека случайно появляется «магический» партнер-девушка — и магия становится причиной сложностей, недоразумений и комических ситуаций, хотя партнер старается стать «обычной домохозяйкой».
Но похоже ли устроены два сериалы на уровне сцен, эпизодов и структуры персонажей? Это и попытались выяснить с помощью компьютерного зрения.
Кто в доме главный?
Bewitched выходил с 1964 по 1972 год, I Dream of Jeannie — с 1965 по 1970. Всего в двух сериалах 393 эпизода — даже просто посмотреть их все без помощи алгоритмов было бы трудно. Не говоря уже о том, чтобы что-то запомнить и проанализировать. Команда Distant Viewing использовала алгоритм FAREC-CNN на основе сверточной нейронной сети, чтобы автоматически определять появление персонажа на экране.
Разметив несколько эпизодов вручную и натренировав на этих данных нейронную сеть, ученые получили точность определения персонажа свыше 98% при полноте определения 95%. Ошибки происходили на общих планах, где лицо персонажа было чем-то частично закрыто.
Для начала исследователи просто измерили, кто из героев появляется в кадре чаще всего. Уже этот простой эксперимент дал неожиданные результаты. Раньше оба ситкома считались сериалами «про магических женщин». Актрисы, сыгравшие ведьму Саманту и джина Джинни, по популярности и известности превосходили своих партнеров-мужчин.
Но количественный анализ выявил разницу. В Bewitched героиня делит экранное время со своим мужем примерно поровну. В I Dream of Jeannie герой (астронавт Тони) появляется на экране гораздо чаще, чем сама Джинни:
Как видим в I Dream of Jeannie, Джинни даже не вторая. Похоже, шовинистические свиньи-продюсеры под шумок отдали мужчинам все экранное время. И видимо, у сериала неслучайно такое название: «Я мечтаю о Джинни». Уже на лингвистическом уровне Джинни объективирована.
Вообще именно на уровне распределения экранного времени проявляется разница между сериалами. В I Dream of Jeannie все вращается вокруг Тони: его работа, его друзья, его личный джин-домохозяйка Джинни. В Bewitched все более равномерно: мир ведьм и магии вокруг Саманты, и мир обычных людей — вокруг ее мужа Даррина. Комедия, естественно, рождается на столкновении миров (от которого обычно страдает Даррин).
Кто первый — тот и главный
Можно измерять центральность персонажа в сериале другим способом. Например, посчитать число эпизодов, в которых его лицо появляется первым. По этому параметру в Bewitched ведьма Саманта сильно обходит мужа. I Dream of Jeannie астронавт Тони лидирует без изменений. Зато Джинни стала виднее:
Третий вариант — измерить, сколько времени в сумме занимают крупные планы каждого персонажа. Красотку-ведьму Саманту показывают больше всех:
Измерять, сколько раз нас заставляют любоваться лицом главной героини, — это, конечно, хорошо. А можно ли автоматически извлекать связи между персонажами? Оказывается, тоже можно.
Самый простой способ — совместное появление на экране. Но ребята из Distant Viewing сделали сложнее. В совместных сценах камера обычно перескакивает с одного персонажа на другого. Поэтому авторы исследования считали связью появления персонажей не только вместе, но и поочередно в соседних кадрах.
Здесь сериалы снова разные. В Bewitched самая сильная связь — у главных героев, ведьмы Саманты и ее мужа Даррина. А в I Dream of Jeannie Тони крепче всего связан с коллегой-астронавтом Роджером.
Но есть у двух ситкомов и сходство — это самые слабые связи. От Ларри в Bewitched скрывают существование Эндоры (ведьма, мама Саманты). И точно так же от Альфреда в I Dream of Jeannie скрывают Джинни, потому что Альфред — психолог НАСА. Неудивительно, что эти пары редко оказываются близко в экранном пространстве.
А можно ли попытаться что-то понять про развитие сюжета каждой серии через такие измерения? Кажется, что тоже да, хотя пока — довольно грубо. Например, можно классифицировать все планы (это цепочка кадров между двумя переключениями камеры): крупные, парные,групповые, общие. По мере развития сюжета общих планов становится больше — в начале серии ситкома сюжет часто развивается между двумя людьми, а потом появляется больше второстепенных персонажей.
Теперь авторы исследования хотят доработать алгоритмы, чтобы можно было определять эмоции персонажей, анализировать перемещения и углы камеры, автоматически определять эпизодических персонажей
Кстати, инструмент для анализа сериалов лежит в свободном доступе:
Distant Viewing Toolkit (DVT) for the Cultural Analysis of Moving Images