Читать нас в Telegram
звук губами
Иллюстратор: Женя Родикова

Разработчики инструмента использовали видеоматериал, в котором четко различима область вокруг рта человека. Класс подобных видео называется «говорящая голова»‎ (англ. talking head video). В корректном синхронном аудио-визуальном потоке каждая визема (положение губ при произнесении фонемы) соответствует звуку. Фонема — единица языка, которая в конкретной речевой ситуации проявляется через звук.

Изначально для проверки технологии выделения фейков приглашались неподготовленные наблюдатели. После просмотра некоторого количества видеоматериала они корректно определяли подмену. Теперь этим занимается специальная нейронная сеть, обученная на видеоданных, в которых присутствует как можно больше фонем. Для обучения сети и ее проверки использовались выступления и интервью экс-президента США Барака Обамы.

Виземы Барака Обамы. Буквы над картинками обозначают, к какой фонеме они относятся.

В 2019 году один из исследователей, профессор Маниш Агравала, в составе другой группы помог разработать технологию редактирования видеопотока, которая учитывает связь видимых положений губ и воспринимаемых звуков. Она позволяет незаметно вставить слово, которое человек не говорил, или, наоборот, вырезать произнесенное. Разработчики стремились сделать удобный инструмент, который поможет убрать видеоляпы в отснятом материале, вырезать сцену из ТВ-шоу или фильма. Но помимо своего прямого применения технология позволяет делать высококачественные дипфейки, в которых неподготовленный человек не заметит подмены. В сети было распространено измененное подобным образом интервью Джо Байдена. В нем политик отвечает утвердительно на отредактированный вопрос, который в действительности не задавался.

Технологии изготовления и обнаружения видео-фейков эволюционируют вместе. Первая стремится замести следы своего присутствия, вторая пытается выявить нестыковки. Происходящее напоминает игру в кошки-мышки‎. Но на длинных временных дистанциях развитие технологий приведет к тому, что сделать качественную, незаметную подмену станет легче, чем её обнаружить. Профессор Маниш Агравала считает, что бороться обществу надо не с видео-фейками, а с распространением ложной информации. Для этого надо повысить общую цифровую грамотность и принять законы, вводящие ответственность за сознательное искажение информации в политической сфере.

Источники