扫码阅读
手机扫码阅读

勇夺三项SOTA!北航&爱诗科技联合发布灵活高效可控视频生成方法TrackGo!

12 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:勇夺三项SOTA!北航&爱诗科技联合发布灵活高效可控视频生成方法TrackGo!
文章来源:
AI生成未来
扫码关注公众号

摘要:

本文介绍了一种名为TrackGo的新颖视频生成方法,旨在实现复杂场景中的精确运动控制。该方法通过结合masks和箭头,提供了精细操控多个对象和细粒度对象部件运动的机制。文章开发的TrackAdapter组件能有效整合运动控制信息至时间自注意力层,实验结果显示TrackGo在视频和图像质量、运动真实性方面均超越现有模型。

方法概览:

TrackGo任务是生成与用户指定轨迹一致的视频,基于稳定视频扩散模型(SVD)。通过编码器将点轨迹转化为压缩表示,并注入到时间自注意力层,使用TrackAdapter进行精确控制。方法包括点轨迹生成、通过TrackAdapter注入运动条件,以及模型的训练和推理过程。

实验设置:

采用SVD模型作为基础,在NVIDIA A100-80G GPU上进行实验,数据集包括内部数据集和VIPSeg验证集。评估指标包括FVD和FID,与现有模型DragNUWA和DragAnything进行比较。

评估结果:

在定量评价中,TrackGo在所有指标上均超越基线方法,展示出最佳的视觉质量和最快的推理速度;定性评价中,TrackGo在处理复杂场景和保持背景一致性的能力上展现出明显优势。消融研究证明了注意力mask和注意力损失的有效性,用户研究也表明TrackGo合成视频质量得到了用户的高度认可。

结论:

TrackGo通过使用点轨迹和TrackAdapter,实现了对视频中复杂运动的精确控制,并通过注意力mask调节未指定区域的运动,提供了与用户输入高度一致的视频输出。实验结果证明了其在多项关键指标上达到了SOTA水平,显示了其在各种复杂场景中的精确控制能力。

致谢:

感谢读者的点赞、关注和转发,鼓励作者继续分享有价值的内容。同时,欢迎加入「AI生成未来社区」群聊,共同探讨图像生成、视频生成等多个领域的话题。

想要了解更多内容?

查看原文:勇夺三项SOTA!北航&爱诗科技联合发布灵活高效可控视频生成方法TrackGo!
文章来源:
AI生成未来
扫码关注公众号