Новые нейросети по созданию видео демонстрируют сумасшедшие темпы прогресса. Еще недавно пользователи удивлялись статическим изображениям от ИИ, но на подходе новая технология – генеративная нейросеть для создания видео на основании текстовых подсказок. Компания NVIDIA недавно показала возможности своего алгоритма, основанного на Latent Diffusion Model (LDM).
Видео «Уилл Смит ест спагетти», созданное генеративной нейросетью ModelScope всего месяц назад наделало немало шума, показав серьезные возможности ИИ в вопросе создания видеороликов.
А на днях NVIDIA представила собственную нейросеть, которая оказалась на голову выше ModelScope. По словам представителей компании, LDM нового поколения обучена генерировать изображения на основе текстовых подсказок. Нейросеть анимирует картинки, используя знания, почерпнутые из тысяч существующих видеороликов.
ИИ создает несколько ключевых кадров по всей последовательности ролика. Затем использует другой LDM для интерполяции между ключевыми кадрами, генерируя изображения одинакового качества для последовательного наполнения.
Нейросеть способна генерировать ролики с разрешением 512 x 1024 и 1280 x 2048 пикселей. Конечно, любой человек увидит, что в роликах много неточностей, и они явно сделаны при помощи ИИ.
Важно понимать, что эта технология все еще на начальной стадии развития. С учетом сумасшедшей скорости прогресса нейросетей, трудно представить, на что ИИ будет способен через несколько лет.