Группа исследователей из Беркли и Стэнфорда разработала инструмент, который находит нестыковки в аудио-визуальном потоке между положениями губ и произносимыми звуками
Иллюстратор: Женя Родикова
Разработчики инструмента использовали видеоматериал, в котором четко различима область вокруг рта человека. Класс подобных видео называется «говорящая голова» (англ. talking head video). В корректном синхронном аудио-визуальном потоке каждая визема (положение губ при произнесении фонемы) соответствует звуку. Фонема — единица языка, которая в конкретной речевой ситуации проявляется через звук.
Изначально для проверки технологии выделения фейков приглашались неподготовленные наблюдатели. После просмотра некоторого количества видеоматериала они корректно определяли подмену. Теперь этим занимается специальная нейронная сеть, обученная на видеоданных, в которых присутствует как можно больше фонем. Для обучения сети и ее проверки использовались выступления и интервью экс-президента США Барака Обамы.
В 2019 году один из исследователей, профессор Маниш Агравала, в составе другой группы помог разработать технологию редактирования видеопотока, которая учитывает связь видимых положений губ и воспринимаемых звуков. Она позволяет незаметно вставить слово, которое человек не говорил, или, наоборот, вырезать произнесенное. Разработчики стремились сделать удобный инструмент, который поможет убрать видеоляпы в отснятом материале, вырезать сцену из ТВ-шоу или фильма. Но помимо своего прямого применения технология позволяет делать высококачественные дипфейки, в которых неподготовленный человек не заметит подмены. В сети было распространено измененное подобным образом интервью Джо Байдена. В нем политик отвечает утвердительно на отредактированный вопрос, который в действительности не задавался.
Технологии изготовления и обнаружения видео-фейков эволюционируют вместе. Первая стремится замести следы своего присутствия, вторая пытается выявить нестыковки. Происходящее напоминает игру в кошки-мышки. Но на длинных временных дистанциях развитие технологий приведет к тому, что сделать качественную, незаметную подмену станет легче, чем её обнаружить. Профессор Маниш Агравала считает, что бороться обществу надо не с видео-фейками, а с распространением ложной информации. Для этого надо повысить общую цифровую грамотность и принять законы, вводящие ответственность за сознательное искажение информации в политической сфере.
«Лучше пешком», — говорим мы себе летом и выбираем прогулки непривычными маршрутами. А если путь не знаком — поможет приложение-навигатор.…
SpaceX, Anthropic и OpenAI готовятся стать публичными компаниями, Google и Microsoft выпустили новые модели — рассказываем, что произошло в мире…
Японская культура повседневности отличается вниманием к визуальной эстетике, типографике и деталям коммуникации. Поэтому даже самые обычные документы — билеты, рекламные…