寥寥数笔,动画自成!阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
亮点直击
引入了Tora,首个轨迹导向的Diffusion Transformer(DiT)用于视频生成。融合了文本、视觉和轨迹条件,通过新颖的轨迹提取器和运动引导融合机制,实现时空运动块的获取和注入,以创建遵循轨迹的视频。Tora能够生成高分辨率(720p)、多变纵横比、长达204帧的视频,并在模拟物理世界运动方面表现卓越。
方法
Preliminary
介绍了潜在视频扩散模型(LVDM)和Diffusion Transformer(DiT),后者结合了扩散模型和transformer架构的优势,超越了传统U-Net模型的局限。
Tora
Tora基于OpenSora模型,引入轨迹提取器(TE)和运动引导融合器(MGF),将提供的轨迹编码为时空运动补丁,精细集成到DiT块中。通过视频自动编码器减少视频维度,使用轨迹图和3D VAE进行轨迹压缩,并通过MGF将运动块注入ST-DiT块。
训练策略和数据处理
采用两阶段训练策略,先使用稠密光流,后微调稀疏轨迹,实现细粒度运动控制。同时支持视觉条件,通过结构化数据处理满足训练数据集需求。
实验
定量和定性结果
对比其他运动引导视频生成方法,Tora在生成长帧序列视频时表现出更高的轨迹准确性和运动保真度,尤其是在长时长内保持有效的轨迹控制。
消融实验
通过消融实验分析了轨迹压缩方法和MGF的集成位置的影响。结果显示本文方法的自适应归一化层和将MGF集成于Temporal DiT块中效果最佳。
结论
Tora作为第一个面向轨迹的扩散Transformer框架,集成了文本、图像和轨迹条件,有效地模拟了物理世界的运动,展现了高视觉保真度和多功能性。为基于DiT的运动控制研究提供了实证基线。
想要了解更多内容?