Компания Google представила необычную ИИ-модель пространственно-временной диффузии Lumiere, которая способна генерировать реалистичные видео.
За последний год мы прошли долгий путь от Уилла Смита, поедающего спагетти до весьма реалистичных роликов от Lumiere. ИИ-модель умеет создавать высококачественные видеоклипы длиной до пяти секунд. Она способна анимировать неподвижные изображения или их фрагменты в ответ на текстовые подсказки на естественном языке
Еще одна способность Lumiere – взять изображение, клонировать его стиль, а затем использовать его для создания множества видеороликов на другие темы, которые выглядят и ощущаются настолько похожими, что могли бы быть сделаны рекламным агентством.
На данный момент у Lumiere самые продвинутые возможности по заполнению видео. Пользователь может закрасить часть изображения (где была его бывшая), а модель автоматически «дорисует» эту область.
Команда исследователей утверждает, что «пространственно-временная сетевая архитектура» Lumiere строит всю длину видео сразу, за один проход – в отличие от предыдущих моделей, которые часто генерировали начальный и конечный кадры, а затем пытались угадать, что произойдет между ними.