360发布FancyVideo:通过跨帧文本指导实现动态且一致的视频生成SOTA!
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
亮点直击
FancyVideo是一个开创性的尝试,它在文本到视频(T2V)任务中探索了跨帧文本指导,以增强视频的运动性和一致性。该方法的跨帧文本指导模块(CTGM)能够在时间维度上引导潜在特征的建模,从而实现了在定量和定性评估中最先进的视频生成结果。
合成动作丰富且时间一致的视频
现有的T2V模型存在局限性,因为它们使用空间交叉注意力实现文本控制而缺乏帧特定的文本指导。FancyVideo通过CTGM改进了文本控制机制,加入了时间信息注入器(TII)、时间相关性精炼器(TAR)和时间特征增强器(TFB)来实现帧特定的文本指导。这些元素共同作用于伪3D UNet模型架构,以增强视频的时间一致性。
方法
预备知识
本文使用潜在扩散模型(LDMs)和零终端信噪比(SNR)噪声调度,以解决训练和测试阶段之间的信噪比差异,这是影响生成视频质量的一个障碍。
模型架构
FancyVideo的架构包括伪3D UNet,集成了冻结空间模块和CTGM。模型结构接受三个特征作为输入,并通过时间注意力块强化时间关系。
跨帧文本指导模块
CTGM通过TII、TAR和TFB三个子模块改进文本控制方法。这些模块分别负责将时间信息融入文本embedding中、优化空间交叉注意力的注意力图和提升特征的时间一致性。
实验
定量实验
定量实验中,FancyVideo使用T2I基础模型生成第一帧,随后采用外部模型生成美观且无水印的第一帧。
定性评估
本文的方法在定性评估中展现了绝佳的性能,尤其是在时间一致性和动作丰富性方面超越了先前的方法。
定量评估
在EvalCrafter基准测试中,FancyVideo实现了优秀的视频质量和文本视频对齐性能,证明了其在生成时间一致和动作准确视频方面的能力。
人工评估
人工评估结果显示,FancyVideo在视频质量、文本视频对齐、动作质量和时间一致性四个方面均显著优于其他方法。
消融研究
消融研究通过实验验证了CTGM中各个核心模块的有效性。
结论
FancyVideo通过跨帧文本指导模块(CTGM)改进了视频生成过程,使得生成的视频在动态性和一致性方面有显著提升。其在EvalCrafter基准测试和人工评估中都取得了最先进的成果。
想要了解更多内容?