扫码阅读

手机扫码阅读

视频生成领域第一个World Model来了！WorldDreamer：视频生成任务的通用模型

368 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：视频生成领域第一个World Model来了！WorldDreamer：视频生成任务的通用模型

文章来源：

AI生成未来

扫码关注公众号

概要

本文提出了一个名为WorldDreamer的创新世界模型，旨在通过预测被屏蔽的视觉标注来建模视频中的复杂动态，以改善视频生成的能力。WorldDreamer利用无监督的视觉序列建模挑战，结合了多模态提示和基于Transformer的Spatial Temporal Patchwise Transformer (STPT)架构，来促进对通用世界物理和运动的理解。

WorldDreamer的主要贡献包括：(1) 为视频生成构建的第一个通用世界模型；(2) 提出了STPT增强时空窗口内的局部patch关注；(3) 通过大量实验证明了WorldDreamer在文本到视频转换、图像到视频合成、视频编辑等多重任务方面的适应性和效果。

世界模型和视频生成背景

世界模型对于学习通用世界中的运动和物理至关重要，尤其是在视频生成领域。现有的世界模型主要局限于特定领域（如游戏、机器人和自动驾驶），且依赖于循环神经网络（RNNs）和基于扩散的方法，这些方法在捕捉通用世界场景的复杂性方面存在限制。

WorldDreamer模型介绍

WorldDreamer使用VQGAN对图像编码为离散标注，再利用STPT预测被屏蔽的标注。STPT通过将注意力集中在时空窗口内的局部patch上，促进了对视觉信号动态的学习。结合多模态提示，WorldDreamer通过交叉注意力将语言和动作信号整合在一起，构建多模态提示，以促进在世界模型内的交互。

WorldDreamer支持在没有文本或动作数据的情况下进行训练，并可以完成多种视频生成和视频编辑任务，如图像到视频转换、视频风格化、文本到视频生成、视频修复和动作到视频生成。

实验和实施细节

WorldDreamer在多样化的图像和视频集上进行训练，以增强对视觉动态的理解。实验表明，WorldDreamer在生成不同场景的视频方面表现出色，并能快速并行解码视频。

结论

WorldDreamer是一个通用世界模型，可以捕捉视频中的复杂动态，极大地增强了视频生成的能力。它在多种情景中表现出色，展示了其在多个视频相关任务中的适应性和效果。

想要了解更多内容？

查看原文：视频生成领域第一个World Model来了！WorldDreamer：视频生成任务的通用模型

文章来源：

AI生成未来

扫码关注公众号

相关推荐

ChatGPT AI语言模型引领新时代！快来试用我们最新上线的AI聊天机器人吧！

285

AI 提问点击推送

ChatGPT无疑是当前最火的AI语言模型，所以我们也在不断的去学习使用它，一个全新的时代即将到来，要想不被时代抛弃，就要永远保持好奇心。

chatTTS 最强文字转语音模型本地部署!

616

今天本地部署了下传说中的语音合成大模型chatTTS，效果太棒了。

月薪5000管46个群？不如用AI合法摸鱼。。。

199

AI 回复知识库摸鱼

你做什么工作的，连个星期天也没有

当我用AI做了《Mojito》的动画版MV - 献给周杰伦

269

AI 视频 MV SD

之前我用MJ+Runway和MJ+PIKA的工作流，做了两期AI视频。我用AI做了一部《流浪地球3》的预告片

Jupyter、PyCharm、Spyder等多种编译器，到底我该用哪个？

520

初学Python的朋友，经常会问jupter、pycharm、spyder等多种编译器，到底我该用哪个？

人工智能AI领域，大模型热会洗牌吗？

287

大模型才刚开始。

AIGC最新技术及资讯

159 篇文章

浏览 71.3K

AI生成未来的其他文章

OpenAI上周解散核心安全团队，今天就发布了安全更新信息？

点击下方卡片，关注“AI生成未来”>>关注【AI生?

好用又免费的AI生图创作平台介绍

好用又免费的AI生图创作平台介绍

图像复原的天花板在哪里？SUPIR：开创性结合文本引导先验和模型规模扩大

关注【AI生成未来】公众号，回复“GAI”，免费获取??

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘

击下方卡片，关注“AI生成未来”>>后台回复“GAI

CVPR`24 | 真假难辨！CosmicMan：超实用的人物生成基础模型来了！(上海AI Lab）

点击下方卡片，关注“AI生成未来”>>后台回复“

随机阅读

和任老师聊聊质量工作

杂谈推理逻辑的严密性

聊聊故事点背后的故事

从3级到高成熟度的18项可能的变化

采用Minitab进行logistic回归分析

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线