文本生视频最强SOTA! Lumiere:一种逼真视频生成时空扩散模型
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
摘要
介绍:尽管图像生成模型取得了巨大进展,但文本到视频(T2V)模型由于运动的复杂性和数据维度增加带来的挑战,其发展仍受到限制。现有T2V模型通过生成关键帧再进行时间超分辨率处理,但这种方法难以实现全局时间一致性。
Lumiere:本文提出了一个新的T2V扩散框架,使用Space-Time U-Net(STUnet)架构一次性生成完整的视频时间序列。这种方法可以在全帧率下生成长达5秒的视频,优于现有模型。同时,整合了预训练的文本到图像(T2I)模型来增强生成能力。Lumiere支持多种视频内容创作和编辑任务。
相关工作:在T2I和T2V生成方面,扩散模型被广泛使用。本文的T2V模型避免了时间级联,而是通过空间和时间的降采样与上采样,直接生成全帧率视频。
架构:STUnet架构通过空间和时间降采样来处理信号,使用时间卷积和注意力机制。结合Multidiffusion扩展到时间域,解决了空间超分辨率网络的时间边界问题。
应用:Lumiere能够进行图像到视频生成、视频修复和风格化生成等任务。它还展示了在用户提供的区域内动画图像内容的能力。
评估:在30M个视频的数据集上训练后,Lumiere展示了优秀的视频生成结果,具有复杂物体运动和一致的摄像机运动。与其他模型相比,Lumiere在视觉质量、运动一致性和文本提示匹配方面获得了用户偏好。
结论:本文提出的框架成功利用了预训练的T2I模型,提升了T2V模型的性能。尽管有其局限性,本设计原则适用于潜在视频扩散模型,为文本到视频模型设计提供了新的研究方向。
社会影响:虽然旨在促进创新和灵活的视觉内容生成,但也存在利用技术制造虚假或有害内容的风险,需要开发工具以确保其安全、公正的使用。
想要了解更多内容?