文本生视频最强SOTA! Lumiere:一种逼真视频生成时空扩散模型

发布于 2024-10-22

318

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：文本生视频最强SOTA! Lumiere:一种逼真视频生成时空扩散模型

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章摘要

摘要

介绍：尽管图像生成模型取得了巨大进展，但文本到视频（T2V）模型由于运动的复杂性和数据维度增加带来的挑战，其发展仍受到限制。现有T2V模型通过生成关键帧再进行时间超分辨率处理，但这种方法难以实现全局时间一致性。

Lumiere：本文提出了一个新的T2V扩散框架，使用Space-Time U-Net（STUnet）架构一次性生成完整的视频时间序列。这种方法可以在全帧率下生成长达5秒的视频，优于现有模型。同时，整合了预训练的文本到图像（T2I）模型来增强生成能力。Lumiere支持多种视频内容创作和编辑任务。

相关工作：在T2I和T2V生成方面，扩散模型被广泛使用。本文的T2V模型避免了时间级联，而是通过空间和时间的降采样与上采样，直接生成全帧率视频。

架构：STUnet架构通过空间和时间降采样来处理信号，使用时间卷积和注意力机制。结合Multidiffusion扩展到时间域，解决了空间超分辨率网络的时间边界问题。

应用：Lumiere能够进行图像到视频生成、视频修复和风格化生成等任务。它还展示了在用户提供的区域内动画图像内容的能力。

评估：在30M个视频的数据集上训练后，Lumiere展示了优秀的视频生成结果，具有复杂物体运动和一致的摄像机运动。与其他模型相比，Lumiere在视觉质量、运动一致性和文本提示匹配方面获得了用户偏好。

结论：本文提出的框架成功利用了预训练的T2I模型，提升了T2V模型的性能。尽管有其局限性，本设计原则适用于潜在视频扩散模型，为文本到视频模型设计提供了新的研究方向。

社会影响：虽然旨在促进创新和灵活的视觉内容生成，但也存在利用技术制造虚假或有害内容的风险，需要开发工具以确保其安全、公正的使用。

AI生成未来

查看原文：文本生视频最强SOTA! Lumiere:一种逼真视频生成时空扩散模型

文章来源：

AI生成未来

扫码关注公众号

相关推荐

干货 | IT规划方法论培训讲义分享

567

规划项目管理架构文末

加（微信：AgileMasterZhang2022）进入张永彬项目管理读??

再深入了解下ChatGPT

434

模型 ChatGPT 语言训练

介绍ChatGPT概念，版本迭代，基本历程等ChatGPT的知识

入门PyTorch，看这一篇就够了

431

GPU PyTorch 模型矩阵

介绍PyTorch。

51页精品PPT | 大数据安全战略全景规划与蓝图设计方案（附下载方式）

728

数据下载数据安全 PPT

随着大数据技术的飞速发展，企业在享受其带来的便利与效益的同时，也面临着前所未有的安全风险。为了保障企业大数据资源的安全与稳定，本文提出了大数据安全战略的全景规划与蓝图设计方案。

国内AI大模型，这篇文章说透了

405

探索国内顶尖AI企业及其创新产品。

让ChatGPT根据你自己的数据库作答 - 新瓶装旧酒

20

数据 GPT ChatGPT 嵌入

今天，想写一篇浅显的文章，跟大家聊聊OpenAI开放的能力，也是你们所见到的ChatPDF、ChatDOC、所谓Chrome联网插件等工具的原理。让大家人人都能将自己的数据灌给ChatGPT，让他根据你的数据来做答。

AIGC最新技术及资讯

207 篇文章

浏览 88.8K

AI生成未来的其他文章

从PixArt α 到 Σ: 关于高效Diffusion Models你想知道的一切

点击下方卡片，关注“AI生成未来”>>关注【AI生?

如何评价LLM的好坏？一文汇总大语言模型评估数据集

点击下方卡片，关注“AI生成未来”>>关注【AI生

超越α！PixArt家族新秀PixArt-Σ: 由弱到强训练的文本生成4K图像DiT（华为诺亚）

点击下方卡片，关注“AI生成未来”>>后台回复“

生成一个好故事！StoryDiffusion:一致自注意力和语义运动预测器必不可少（南开&字节）

击下方卡片，关注“AI生成未来”>>后台回复“GAI

CVPR 2024 | 万物皆可移动！SceneDiffusion：可控场景生成新SOTA!（Meta AI&南洋理工）

点击下方卡片，关注“AI生成未来”>>后台回复“

随机阅读

3分钟弄懂CMMI2.0基准评估的抽样规则

解读微信团队的七个价值观

COSMIC规模度量案例集三：业务应用软件案例—页面维护

例解：目标、性能基线与性能模型的关系

高成熟度的软件估算应该是什么样的？

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询