Исследователи Google разработали новую систему искусственного интеллекта VLOGGER, способную генерировать реалистичные видеоролики с движущимися и говорящими людьми всего лишь по одной фотографии.
Что известно
VLOGGER может взять на вход фотографию человека и аудиодорожку, а затем синтезировать видео, в котором этот человек произносит слова, делает соответствующие мимику, жесты и движения головой. Хотя генерируемые ролики неидеальны, они демонстрируют значительный прогресс в оживлении статичных изображений.
Для создания модели разработчики собрали огромній набор данных MENTOR с более чем 800 000 людей и 2200 часами видео. Благодаря этому VLOGGER научилась генерировать разнообразных персонажей разного возраста, этнического происхождения и в различных окружениях.
Технология открывает множество применений, включая автоматический дубляж видео, редактирование и заполнение пропущенных кадров, а также создание полноценных видеороликов по одной фотографии. Это может быть полезно для развлекательной индустрии, виртуальной реальности, обучающих программ и создания виртуальных помощников на базе ИИ.
Однако существует риск использования VLOGGER для создания дипфейков (deepfakes) — синтетических медиафайлов, где реальный человек заменяется подделкой. По мере совершенствования такие видео могут усугубить проблемы дезинформации и подделок в интернете.
Разработчики признают, что VLOGGER имеет ограничения. Создаваемые видеоролики относительно коротки, имеют статичный фон, а люди не перемещаются в 3D-среде. Тем не менее исследователи называют модель важной вехой в исследованиях ИИ.