CVPR`24 | FRESCO:高质量、连贯的Zero-shot视频转换新方案(北大&南洋理工)
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章摘要
Shuai Yang等人提出了FRESCO (FRamE Spatial-temporal COrrespondence),一种zero-shot视频转换框架,无需训练即可将图像扩散模型扩展到视频领域。FRESCO结合帧内空间对应和帧间时间对应,建立更强大的空间-时间约束,提升视频的视觉连贯性和质量。
介绍
在数字时代,短视频成为主要娱乐形式。尽管图像编辑方面取得了进展,但视频处理面临确保自然运动与时间一致性的挑战。zero-shot方法通过改变图像模型的推理过程,使用额外的时间一致性约束,提供了一种高效的视频处理途径。
方法
FRESCO通过引入帧时空对应关系,将时空对应关系纳入U-Net中,优化解码器层特征以增强空间和时间一致性。还包括FRESCO引导的特征注意力和优化,作为强大的帧内和帧间约束,并通过联合处理批处理帧来实现长视频转换。
相关工作
图像扩散模型在文本引导的图像生成和编辑方面表现出色。zero-shot文本引导视频编辑方法以轻量级和高度兼容性为特点,但存在闪烁问题。FRESCO框架通过结合帧内对应关系提高了时间一致性。
实验
FRESCO与现有方法相比,在生成高质量、连贯的视频方面表现出显著改进,实验结果显示其在编辑准确性和时间一致性方面表现最佳。用户研究也显示FRESCO为最受欢迎的方法。
限制和未来工作
在限制方面,Rerender-A-Video在高质量光流情况下优于FRESCO。FRESCO不支持大的形状变形和显著外观变化。未来可探索与学习运动先验的结合。
总结
FRESCO有效地调整图像扩散模型进行视频转换,其提出的约束与现有图像扩散技术高度兼容,显示出在视频编辑任务中的潜在应用。
参考资料
- 论文地址:https://arxiv.org/pdf/2403.12962.pdf
- 代码地址:https://github.com/williamyang1991/FRESCO
- 项目地址:https://www.mmlab-ntu.com/project/fresco/
想要了解更多内容?