扫码阅读
手机扫码阅读
如何高效定制视频扩散模型?卡内基梅隆提出VADER:通过奖励梯度进行视频扩散对齐
51 2024-10-25
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
AI生成未来
扫码关注公众号
亮点摘要
- 引入奖励模型梯度对齐方法,通过奖励模型的梯度对视频扩散模型进行调整和对齐。
- 广泛使用预训练视觉模型,提高任务适应能力和性能。
- 内存使用的优化技巧,允许在单个16GB VRAM的GPU上训练。
- 显著改进模型生成质量,优于传统对齐方法。
研究背景
建立视频扩散模型方面取得了进展,但下游任务的调整至关重要。监督微调复杂且繁琐,本文提出利用预训练奖励模型来适应视频扩散模型,学习顶尖视觉辨别模型的偏好。
VADER框架
本文提出VADER,通过奖励函数R(.)指定的特定任务来调整视频扩散模型θ。利用奖励函数相对于模型权重θ的梯度进行高效学习。
奖励模型
使用多种奖励函数来对齐视频扩散模型,包括图像-文本相似度奖励、视频-文本相似度奖励、图像生成目标和视频生成目标。
内存开销优化
VADER提出了减少内存使用的技巧,包括LoRA、混合精度、梯度检查点、截断反向传播和帧子采样。
实验结果
VADER专注于通过图像和视频定制的奖励模型对条件视频扩散模型进行微调,表现出高样本效率和计算效率,并在多种奖励模型上表现良好。
结论
VADER是一个样本和计算高效的框架,通过奖励梯度对预训练视频扩散模型进行微调。它对条件无关,并且适用于文本到视频和图像到视频的扩散模型。
想要了解更多内容?
文章来源:
AI生成未来
扫码关注公众号
AI生成未来的其他文章
文本生视频最强SOTA! Lumiere:一种逼真视频生成时空扩散模型
关注【AI生成未来】公众号,回复“GAI”,免费获取??
OpenAI上周解散核心安全团队,今天就发布了安全更新信息?
点击下方卡片,关注“AI生成未来”>>关注【AI生?
超越α!PixArt家族新秀PixArt-Σ: 由弱到强训练的文本生成4K图像DiT(华为诺亚)
点击下方卡片,关注“AI生成未来”>>后台回复“
文本生成图像新SOTA!RealCompo:逼真和构图的动态平衡(清北最新)
点击上方 蓝字,关注 AI 生成未来,干货不停后台??
自回归扳回一城!阿里等提出MARS:超越PixArt-α、SD-XL等的文本到图像生成框架
点击下方卡片,关注“AI生成未来”>>后台回复“
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线