扫码阅读
手机扫码阅读

如何高效定制视频扩散模型?卡内基梅隆提出VADER:通过奖励梯度进行视频扩散对齐

118 2024-10-25

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

VADER: Video Diffusion Alignment via Reward Gradients

亮点摘要

  • 引入奖励模型梯度对齐方法,通过奖励模型的梯度对视频扩散模型进行调整和对齐。
  • 广泛使用预训练视觉模型,提高任务适应能力和性能。
  • 内存使用的优化技巧,允许在单个16GB VRAM的GPU上训练。
  • 显著改进模型生成质量,优于传统对齐方法。

研究背景

建立视频扩散模型方面取得了进展,但下游任务的调整至关重要。监督微调复杂且繁琐,本文提出利用预训练奖励模型来适应视频扩散模型,学习顶尖视觉辨别模型的偏好。

VADER框架

本文提出VADER,通过奖励函数R(.)指定的特定任务来调整视频扩散模型θ。利用奖励函数相对于模型权重θ的梯度进行高效学习。

奖励模型

使用多种奖励函数来对齐视频扩散模型,包括图像-文本相似度奖励、视频-文本相似度奖励、图像生成目标和视频生成目标。

内存开销优化

VADER提出了减少内存使用的技巧,包括LoRA、混合精度、梯度检查点、截断反向传播和帧子采样。

实验结果

VADER专注于通过图像和视频定制的奖励模型对条件视频扩散模型进行微调,表现出高样本效率和计算效率,并在多种奖励模型上表现良好。

结论

VADER是一个样本和计算高效的框架,通过奖励梯度对预训练视频扩散模型进行微调。它对条件无关,并且适用于文本到视频和图像到视频的扩散模型。

想要了解更多内容?