Новый алгоритм сообщит о подмене лиц на видео

Европейские ученые научили алгоритм выявлять подмену лиц в видеороликах. Для обучения программы исследователи создали масштабный датасет из полумиллиона изображений, которые взяты из более чем тысячи видео, созданных с использованием алгоритма face2face. Препринт с описанием работы опубликован на сайте arXiv.org.

Развитие машинного обучения позволило разработчикам решать задачи, ранее труднодоступные для компьютера: например, эффективно распознавать объекты на изображениях, улучшать качество фотографий или даже создавать видео из размытых изображений с артефактами движения. Одна из таких задач — реалистичная подмена лиц на фотографиях: на смену классическому подходу с ручной работой в фоторедакторах пришли алгоритмы, которые могут делать это автоматически. У них не всегда получается эффективно (стоит вспомнить то же нейросетевое порно); однако, есть и алгоритмы, которые делают подмену лиц на фотографиях и видео достаточно реалистичной.

Среди них — face2face, который умеет снимать с видео маску человеческого лица и переносить ее лицо в другом видео, причем достаточно реалистично. С одной стороны, развитие подобных технологий может помочь, например, для создание компьютерных игр или дубляж кинофильмов на другие языки, с другой стороны, такие технологии могут быть использованы во вред людям (подробнее об этом читайте в нашем материале «Пластмассовый мир победил»).

Именно поэтому необходима система, которая может эффективно распознавать подмену лиц на видео. Ее созданием занялись авторы новой работы под руководством Маттиаса Ниснера (Matthias Nießner) из Мюнхенского технологического университета. Использовав алгоритм face2face, ученые получили два типа изображений для своего датасета: в нем есть изображения лиц, «перенесенные» на чужие тела, а также скопированная на лица мимика других людей. По словам ученых, новый датасет, названный FaceForensics, — это самая масштабная база данных для обучения алгоритмов выявления подделок.

Далее исследователи использовали FaceForensics для тренировки собственного алгоритма распознавания подмены лиц, основанного на методах глубокого обучения, — XceptionNet. По точности распознавания новый алгоритм превосходит уже существующие в несколько раз: причем даже при оценке сжатых видео.

Приняв во внимание то, что усовершенствование алгоритма для создания поддельных изображений приведет к тому, что улучшатся и сами поддельные изображения (так, что подделку будет распознать сложнее), ученые использовали свой датасет для создания алгоритма, улучшающего поддельные снимки. Разработчикам удалось улучшить «наложение» маски (в особенности — в области подбородка и носа): независимые оценщики на 8 процентов реже называли полученные изображения поддельными в сравнении с изображениями face2face.

Наконец, ученые проверили работу XceptionNet на улучшенных поддельных изображениях: алгоритм показывал до 99 процентов точности распознавания при использовании несжатых изображений разрешением 128×128 пикселей. По мнению ученых, их работа поможет разработчикам в будущем: датасет находится в свободном доступе на сайте команды.

В прошлом году разработчики создали алгоритм, который может переносить живую речь из одного видео в другое, достаточно реалистично воссоздавая артикуляционную мимику говорящего. Алгоритм, работающий на основе рекуррентных нейросетей, был обучен на 17 часах видеозаписи речей 44-го Президента США Барака Обамы.