扫码阅读

手机扫码阅读

勇夺三项SOTA！北航&爱诗科技联合发布灵活高效可控视频生成方法TrackGo！

316 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：勇夺三项SOTA！北航&爱诗科技联合发布灵活高效可控视频生成方法TrackGo！

文章来源：

AI生成未来

扫码关注公众号

摘要：

本文介绍了一种名为TrackGo的新颖视频生成方法，旨在实现复杂场景中的精确运动控制。该方法通过结合masks和箭头，提供了精细操控多个对象和细粒度对象部件运动的机制。文章开发的TrackAdapter组件能有效整合运动控制信息至时间自注意力层，实验结果显示TrackGo在视频和图像质量、运动真实性方面均超越现有模型。

方法概览：

TrackGo任务是生成与用户指定轨迹一致的视频，基于稳定视频扩散模型(SVD)。通过编码器将点轨迹转化为压缩表示，并注入到时间自注意力层，使用TrackAdapter进行精确控制。方法包括点轨迹生成、通过TrackAdapter注入运动条件，以及模型的训练和推理过程。

实验设置：

采用SVD模型作为基础，在NVIDIA A100-80G GPU上进行实验，数据集包括内部数据集和VIPSeg验证集。评估指标包括FVD和FID，与现有模型DragNUWA和DragAnything进行比较。

评估结果：

在定量评价中，TrackGo在所有指标上均超越基线方法，展示出最佳的视觉质量和最快的推理速度；定性评价中，TrackGo在处理复杂场景和保持背景一致性的能力上展现出明显优势。消融研究证明了注意力mask和注意力损失的有效性，用户研究也表明TrackGo合成视频质量得到了用户的高度认可。

结论：

TrackGo通过使用点轨迹和TrackAdapter，实现了对视频中复杂运动的精确控制，并通过注意力mask调节未指定区域的运动，提供了与用户输入高度一致的视频输出。实验结果证明了其在多项关键指标上达到了SOTA水平，显示了其在各种复杂场景中的精确控制能力。

致谢：

感谢读者的点赞、关注和转发，鼓励作者继续分享有价值的内容。同时，欢迎加入「AI生成未来社区」群聊，共同探讨图像生成、视频生成等多个领域的话题。

想要了解更多内容？

查看原文：勇夺三项SOTA！北航&爱诗科技联合发布灵活高效可控视频生成方法TrackGo！

文章来源：

AI生成未来

扫码关注公众号

相关推荐

做好AI时代的设计师

455

设计 AI 设计师生成

在面对AI时代的变革时，设计师们需要如何适应新环境？

人工智能会取代软件开发人员吗？

326

人工智能代码软件开发人员

越来越多的公司转向人工智能来加速软件交付。但基于人工智能的开发工具的日益普及引发了人们对安全性、准确性以及对软件开发人员工作影响的担忧

【AI人工智能系列】5.安装Jupyter插件实现在线Pyhton编程

477

jupyter root 7_1 djt_3

关于jupyter Jupyter Notebook 的本质是一个 Web 应用程序，便于创建和共享程

【AI人工智能系列】开篇：让Python成为您的新技能

300

Python 学习人工智能技术

人工智能是计算机科学中的一个重要领域，是研究、开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学。它涵盖了机器学习、计算机视觉、自然语言处理、智能机器人，旨在使计算机具有类似人类的感知、学习、推理、决策和交流能力

机器学习新动向，用PyTorch实现液态神经网络（Liquid Neural Network）

1508

LNN 神经网络学习液态

介绍液态神经网络（LNN）并提供在PyTorch中实现LNN的步骤指南。

31页PPT | 电子政务数据共享平台解决方案（附方案下载方式）

487

数据下载平台星球

【关注公众号】：获更多精品资料下载！【新粉丝福利】：公众号后台发送关键字：“新粉丝福利”，自动获取100套共18个行业数字化方案及报告大礼包免费下载链接（2024.08月整理）。

AIGC最新技术及资讯

159 篇文章

浏览 69K

AI生成未来的其他文章

能训出SOTA模型的优质数据集发布！复旦最新VidGen-1M: 文生视频还得靠好数据

点击下方卡片，关注“AI生成未来”>>后台回复“

遮挡目标分割、识别和3D重建新希望！Pix2gestalt：三项任务SOTA！

关注【AI生成未来】公众号，回复“GAI”，免费获取??

ECCV`24 | 少步比多步好？TurboEdit:少步扩散和解耦控制的实时精确图像编辑(Adobe出品)

点击下方卡片，关注“AI生成未来”>>后台回复“

生成一个好故事！StoryDiffusion:一致自注意力和语义运动预测器必不可少（南开&字节）

击下方卡片，关注“AI生成未来”>>后台回复“GAI

如何高效定制视频扩散模型？卡内基梅隆提出VADER：通过奖励梯度进行视频扩散对齐

点击下方卡片，关注“AI生成未来”>>后台回复“

随机阅读

《非暴力沟通》读书笔记

案例：工时数据分析

对需求签字画押，有用吗？

各阶段缺陷检出密度的统计分析案例

敏捷团队章程的实践精要

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线