扫码阅读
手机扫码阅读
如何高效定制视频扩散模型?卡内基梅隆提出VADER:通过奖励梯度进行视频扩散对齐

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

AI生成未来
扫码关注公众号
亮点摘要
- 引入奖励模型梯度对齐方法,通过奖励模型的梯度对视频扩散模型进行调整和对齐。
- 广泛使用预训练视觉模型,提高任务适应能力和性能。
- 内存使用的优化技巧,允许在单个16GB VRAM的GPU上训练。
- 显著改进模型生成质量,优于传统对齐方法。
研究背景
建立视频扩散模型方面取得了进展,但下游任务的调整至关重要。监督微调复杂且繁琐,本文提出利用预训练奖励模型来适应视频扩散模型,学习顶尖视觉辨别模型的偏好。
VADER框架
本文提出VADER,通过奖励函数R(.)指定的特定任务来调整视频扩散模型θ。利用奖励函数相对于模型权重θ的梯度进行高效学习。
奖励模型
使用多种奖励函数来对齐视频扩散模型,包括图像-文本相似度奖励、视频-文本相似度奖励、图像生成目标和视频生成目标。
内存开销优化
VADER提出了减少内存使用的技巧,包括LoRA、混合精度、梯度检查点、截断反向传播和帧子采样。
实验结果
VADER专注于通过图像和视频定制的奖励模型对条件视频扩散模型进行微调,表现出高样本效率和计算效率,并在多种奖励模型上表现良好。
结论
VADER是一个样本和计算高效的框架,通过奖励梯度对预训练视频扩散模型进行微调。它对条件无关,并且适用于文本到视频和图像到视频的扩散模型。
想要了解更多内容?

AI生成未来
扫码关注公众号
AI生成未来的其他文章
图像生成地表最强!Playground v2.5技术报告解读重磅来袭!超越SD、DALL·E 3和 Midjourney
点击上方 蓝字,关注 AI 生成未来,干货不停后台??
模糊文字如何恢复高清?效果惊艳的基于扩散模型的文本图像超分辨率技术
作者:Yuzhe Zhang等
解读:AIGCer
恢复低分辨率文本图像
CVPR 2024 | 万物皆可移动!SceneDiffusion:可控场景生成新SOTA!(Meta AI&南洋理工)
点击下方卡片,关注“AI生成未来”>>后台回复“
即插即用!CVD:第一个生成具有相机控制的多视图一致视频方案!(斯坦福&港中文)
点击下方卡片,关注“AI生成未来”>>后台回复“
Vidu官方论文来了!媲美Sora的国产视频生成器背后技术探秘
击下方卡片,关注“AI生成未来”>>后台回复“GAI
加入社区微信群
与行业大咖零距离交流学习


PMO实践白皮书
白皮书上线
白皮书上线