Читать нас в Telegram
Кадр из сериала «Друзья» с автоматически распознанными лицами и объектами

Кадр из сериала «Друзья» с автоматически распознанными лицами и объектами

Компьютерный анализ текстов в цифровую эпоху — обычное дело. Под рукой миллиардные коллекции оцифрованных книг с удобными интерфейсами, да и свой корпус собрать несложно… Хочешь — сравнивай частотности слов и конструкций, хочешь — автоматически извлекай социальные сети героев. 

Другое дело — видео. Визуальная культура не менее интересна, чем текстовая. Последние 50 лет кино и видео явно популярнее у массового потребителя, чем какой угодно текст. Но нельзя просто так «поискать» что-нибудь в сериале, даже если он лежит у тебя на жестком диске. 

То есть было нельзя. А теперь — можно.

Глазастые нейросети

Компьютерное зрение (computer vision) — это все, что связано с автоматическим превращением картинки в смысл. Например, превращение отсканированного документа в текст с помощью FineReader. Или определение лиц камерой слежения. Или диагностика болезни по рентгену легких без участия человека. Или распознавание дорожных знаков и велосипедистов в беспилотном автомобиле.

© Thinkstock

Прорыв в компьютерном зрении случился после прихода искусственных нейронных сетей. Сегодня сверточные (convolutional) нейросети решают сложные зрительные задачи не хуже человека — и при этом быстрее и дешевле. Например, недавно выяснилось, что нейросеть может отличить злокачественные формы рака кожи по фотографии как минимум с той же точностью, что и консилиум из 21 квалифицированных дерматологов. Похожие результаты есть для диабетической ретинопатии, обнаружения метастаз в лимфоузлах и диагностики пневмонии. 

Многие инструменты компьютерного зрения опубликованы с открытым исходным кодом: их можно использовать и переделывать под свои нужды. Благодаря этому компьютерное зрение применяется не только в медицине, разработке беспилотников и системах слежения, но и в исследованиях медиа и кино. А еще мы знаем, как нейросети могут видеть людей сквозь стены. Радиоволны в сочетании с искусственным интеллектом могут распознать скелетообразные силуэты людей, находящихся за стеной. Эту технологию уже используют для мониторинга активности людей с синдромом Паркинсона.

Нейросети смотрят сериалы

Исследовательская группа Distant Viewing использует алгоритмы распознавания лиц и другие инструменты компьютерного зрения, чтобы исследовать сериалы. Вот тут можно посмотреть, как их нейросети опознают героев в сериале «Друзья»:

Недавно исследователи из Distant Viewing проанализировали два классических американских ситкома — Bewitched (у нас его показывали в конце 2000-х под названием «Моя жена меня приворожила») и I Dream of Jeannie («Я мечтаю о Джинни»). 

Bewitched рассказывает о жизни офисного работника Даррина, который случайно женился на ведьме Саманте. Сериал вышел на телеканале ABC в 1964 и стал сверхпопулярным.

Главные герои Bewitched

Конкурентам с NBC пришлось реагировать — и в 1965 появился I Dream of Jeannie. В нем астронавт Тони находит бутылку с девушкой-джинном, которая немедленно влюбляется в него.

Кадр из I Dream of Jeannie

Оба сериала построены на одной сюжетной конструкции: у обычного человека случайно появляется «магический» партнер-девушка — и магия становится причиной сложностей, недоразумений и комических ситуаций, хотя партнер старается стать «обычной домохозяйкой». 

Но похоже ли устроены два сериалы на уровне сцен, эпизодов и структуры персонажей? Это и попытались выяснить с помощью компьютерного зрения. 

Кто в доме главный?

Bewitched выходил с 1964 по 1972 год, I Dream of Jeannie — с 1965 по 1970. Всего в двух сериалах 393 эпизода — даже просто посмотреть их все без помощи алгоритмов было бы трудно. Не говоря уже о том, чтобы что-то запомнить и проанализировать. Команда Distant Viewing использовала алгоритм FAREC-CNN на основе сверточной нейронной сети, чтобы автоматически определять появление персонажа на экране.

Кадр из I Dream of Jeannie

Разметив несколько эпизодов вручную и натренировав на этих данных нейронную сеть, ученые получили точность определения персонажа свыше 98% при полноте определения 95%. Ошибки происходили на общих планах, где лицо персонажа было чем-то частично закрыто. 

Для начала исследователи просто измерили, кто из героев появляется в кадре чаще всего. Уже этот простой эксперимент дал неожиданные результаты. Раньше оба ситкома считались сериалами «про магических женщин». Актрисы, сыгравшие ведьму Саманту и джина Джинни, по популярности и известности превосходили своих партнеров-мужчин. 

Но количественный анализ выявил разницу. В Bewitched героиня делит экранное время со своим мужем примерно поровну. В I Dream of Jeannie герой (астронавт Тони) появляется на экране гораздо чаще, чем сама Джинни:

Анализ частоты появления героев в эпизодах сериалов Bewitched и I dream of Jeannie

Как видим в I Dream of Jeannie, Джинни даже не вторая. Похоже, шовинистические свиньи-продюсеры под шумок отдали мужчинам все экранное время. И видимо, у сериала неслучайно такое название: «Я мечтаю о Джинни». Уже на лингвистическом уровне Джинни объективирована. 

Вообще именно на уровне распределения экранного времени проявляется разница между сериалами. В I Dream of Jeannie все вращается вокруг Тони: его работа, его друзья, его личный джин-домохозяйка Джинни. В Bewitched все более равномерно: мир ведьм и магии вокруг Саманты, и мир обычных людей — вокруг ее мужа Даррина. Комедия, естественно, рождается на столкновении миров (от которого обычно страдает Даррин).

Кто первый — тот и главный

Можно измерять центральность персонажа в сериале другим способом. Например, посчитать число эпизодов, в которых его лицо появляется первым. По этому параметру в Bewitched ведьма Саманта сильно обходит мужа. I Dream of Jeannie астронавт Тони лидирует без изменений. Зато Джинни стала виднее:

Третий вариант — измерить, сколько времени в сумме занимают крупные планы каждого персонажа. Красотку-ведьму Саманту показывают больше всех:

Измерять, сколько раз нас заставляют любоваться лицом главной героини, — это, конечно, хорошо. А можно ли автоматически извлекать связи между персонажами? Оказывается, тоже можно. 

Самый простой способ — совместное появление на экране. Но ребята из Distant Viewing сделали сложнее. В совместных сценах камера обычно перескакивает с одного персонажа на другого. Поэтому авторы исследования считали связью появления персонажей не только вместе, но и поочередно в соседних кадрах.

Здесь сериалы снова разные. В Bewitched самая сильная связь — у главных героев, ведьмы Саманты и ее мужа Даррина. А в I Dream of Jeannie Тони крепче всего связан с коллегой-астронавтом Роджером. 

Но есть у двух ситкомов и сходство — это самые слабые связи. От Ларри в Bewitched скрывают существование Эндоры (ведьма, мама Саманты). И точно так же от Альфреда в I Dream of Jeannie скрывают Джинни, потому что Альфред — психолог НАСА. Неудивительно, что эти пары редко оказываются близко в экранном пространстве. 

А можно ли попытаться что-то понять про развитие сюжета каждой серии через такие измерения? Кажется, что тоже да, хотя пока — довольно грубо. Например, можно классифицировать все планы (это цепочка кадров между двумя переключениями камеры): крупные, парные,групповые, общие. По мере развития сюжета общих планов становится больше — в начале серии ситкома сюжет часто развивается между двумя людьми, а потом появляется больше второстепенных персонажей. 

Теперь авторы исследования хотят доработать алгоритмы, чтобы можно было определять эмоции персонажей, анализировать перемещения и углы камеры, автоматически определять эпизодических персонажей

Кстати, инструмент для анализа сериалов лежит в свободном доступе: 

Distant Viewing Toolkit (DVT) for the Cultural Analysis of Moving Images