扫码阅读
手机扫码阅读

视频生成领域第一个World Model来了!WorldDreamer:视频生成任务的通用模型

12 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:视频生成领域第一个World Model来了!WorldDreamer:视频生成任务的通用模型
文章来源:
AI生成未来
扫码关注公众号

概要

本文提出了一个名为WorldDreamer的创新世界模型,旨在通过预测被屏蔽的视觉标注来建模视频中的复杂动态,以改善视频生成的能力。WorldDreamer利用无监督的视觉序列建模挑战,结合了多模态提示和基于Transformer的Spatial Temporal Patchwise Transformer (STPT)架构,来促进对通用世界物理和运动的理解。

WorldDreamer的主要贡献包括:(1) 为视频生成构建的第一个通用世界模型;(2) 提出了STPT增强时空窗口内的局部patch关注;(3) 通过大量实验证明了WorldDreamer在文本到视频转换、图像到视频合成、视频编辑等多重任务方面的适应性和效果。

世界模型和视频生成背景

世界模型对于学习通用世界中的运动和物理至关重要,尤其是在视频生成领域。现有的世界模型主要局限于特定领域(如游戏、机器人和自动驾驶),且依赖于循环神经网络(RNNs)和基于扩散的方法,这些方法在捕捉通用世界场景的复杂性方面存在限制。

WorldDreamer模型介绍

WorldDreamer使用VQGAN对图像编码为离散标注,再利用STPT预测被屏蔽的标注。STPT通过将注意力集中在时空窗口内的局部patch上,促进了对视觉信号动态的学习。结合多模态提示,WorldDreamer通过交叉注意力将语言和动作信号整合在一起,构建多模态提示,以促进在世界模型内的交互。

WorldDreamer支持在没有文本或动作数据的情况下进行训练,并可以完成多种视频生成和视频编辑任务,如图像到视频转换、视频风格化、文本到视频生成、视频修复和动作到视频生成。

实验和实施细节

WorldDreamer在多样化的图像和视频集上进行训练,以增强对视觉动态的理解。实验表明,WorldDreamer在生成不同场景的视频方面表现出色,并能快速并行解码视频。

结论

WorldDreamer是一个通用世界模型,可以捕捉视频中的复杂动态,极大地增强了视频生成的能力。它在多种情景中表现出色,展示了其在多个视频相关任务中的适应性和效果。

想要了解更多内容?

查看原文:视频生成领域第一个World Model来了!WorldDreamer:视频生成任务的通用模型
文章来源:
AI生成未来
扫码关注公众号