360发布FancyVideo:通过跨帧文本指导实现动态且一致的视频生成SOTA！

发布于 2024-10-25

279

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：360发布FancyVideo:通过跨帧文本指导实现动态且一致的视频生成SOTA！

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

亮点直击

FancyVideo是一个开创性的尝试，它在文本到视频(T2V)任务中探索了跨帧文本指导，以增强视频的运动性和一致性。该方法的跨帧文本指导模块(CTGM)能够在时间维度上引导潜在特征的建模，从而实现了在定量和定性评估中最先进的视频生成结果。

合成动作丰富且时间一致的视频

现有的T2V模型存在局限性，因为它们使用空间交叉注意力实现文本控制而缺乏帧特定的文本指导。FancyVideo通过CTGM改进了文本控制机制，加入了时间信息注入器(TII)、时间相关性精炼器(TAR)和时间特征增强器(TFB)来实现帧特定的文本指导。这些元素共同作用于伪3D UNet模型架构，以增强视频的时间一致性。

方法

预备知识

本文使用潜在扩散模型(LDMs)和零终端信噪比(SNR)噪声调度，以解决训练和测试阶段之间的信噪比差异，这是影响生成视频质量的一个障碍。

模型架构

FancyVideo的架构包括伪3D UNet，集成了冻结空间模块和CTGM。模型结构接受三个特征作为输入，并通过时间注意力块强化时间关系。

跨帧文本指导模块

CTGM通过TII、TAR和TFB三个子模块改进文本控制方法。这些模块分别负责将时间信息融入文本embedding中、优化空间交叉注意力的注意力图和提升特征的时间一致性。

实验

定量实验

定量实验中，FancyVideo使用T2I基础模型生成第一帧，随后采用外部模型生成美观且无水印的第一帧。

定性评估

本文的方法在定性评估中展现了绝佳的性能，尤其是在时间一致性和动作丰富性方面超越了先前的方法。

定量评估

在EvalCrafter基准测试中，FancyVideo实现了优秀的视频质量和文本视频对齐性能，证明了其在生成时间一致和动作准确视频方面的能力。

人工评估

人工评估结果显示，FancyVideo在视频质量、文本视频对齐、动作质量和时间一致性四个方面均显著优于其他方法。

消融研究

消融研究通过实验验证了CTGM中各个核心模块的有效性。

结论

FancyVideo通过跨帧文本指导模块(CTGM)改进了视频生成过程，使得生成的视频在动态性和一致性方面有显著提升。其在EvalCrafter基准测试和人工评估中都取得了最先进的成果。

AI生成未来

查看原文：360发布FancyVideo:通过跨帧文本指导实现动态且一致的视频生成SOTA！

文章来源：

AI生成未来

扫码关注公众号

相关推荐

麻瓜+AI混合工作流试验 1：写一篇《我对AI态度转变的几个阶段》的文章

653

可以“自己只有主题和思路，然后完全用AI产出文章”么

2023年趋势报告

366

Java 特性引入 2023

Java 2023年趋势报告市场占有率Java在2023年仍然是编程世界的中坚力量，拥有广泛的市场占有率。根

名词解释：人工智能（Artificial Intelligence）

386

想象一下，人工智能就像是一个超级智能的助手。在这个比喻中，\x26quot;你\x26quot;就是助手的主人，人工智能就是你的助手，它能够帮助你完成各种任务，并且越来越聪明。

11Labs的AI音效上手评测 - AI视频终不再是无声电影

263

AI 音效 11Labs 视频

有用，但一般

洞悉神经网络结构，4款轻松上手的PyTorch可视化工具

1502

学习深度可视化神经网络

4款在PyTorch框架下常用的神经网络可视化工具

一站式AI人工智能助手 AG智能助手

541

智能助手 AG 3.

由GPT-4、Gemini等最先进的语言模型驱动，内含网页聊天、AI联网、海量提示词、中英文无障碍交流、DELL·E3高清绘图、ChatPDF等多种AI前端应用

AIGC最新技术及资讯

207 篇文章

浏览 88.1K

AI生成未来的其他文章

ACM MM24 | Hi3D: 3D生成领域再突破！新视角生成和高分辨率生成双SOTA(复旦&智象等)

点击下方卡片，关注“AI生成未来” 作者：Haibo Yang ??

最高加速超4倍！不依赖特定模型的统一模型压缩框架CPD发布（卡尔斯鲁厄理工学院）

点击下方卡片，关注“AI生成未来”>>后台回复“

极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

击下方卡片，关注“AI生成未来”>>后台回复“GAI

我的发型我做主！上交联合Tiamat发布首个基于扩散的商业级发型移植框架：Stable-Hair！

.点击下方卡片，关注“AI生成未来”>>后台回复?

即插即用，效率远超ControlNet！贾佳亚团队重磅开源ControlNeXt：超强图像视频生成方法

点击下方卡片，关注“AI生成未来”>>后台回复“

随机阅读

从3级到高成熟度的18项可能的变化

解读微信团队的七个价值观

公司级项目管理例会的汇报内容

COSMIC案例：发票处理功能的规模度量

《以道御术》荣耀上市，高管书评

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线