扫码阅读

手机扫码阅读

如何高效定制视频扩散模型？卡内基梅隆提出VADER：通过奖励梯度进行视频扩散对齐

261 2024-10-25

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：如何高效定制视频扩散模型？卡内基梅隆提出VADER：通过奖励梯度进行视频扩散对齐

文章来源：

AI生成未来

扫码关注公众号

VADER: Video Diffusion Alignment via Reward Gradients

亮点摘要

引入奖励模型梯度对齐方法，通过奖励模型的梯度对视频扩散模型进行调整和对齐。
广泛使用预训练视觉模型，提高任务适应能力和性能。
内存使用的优化技巧，允许在单个16GB VRAM的GPU上训练。
显著改进模型生成质量，优于传统对齐方法。

研究背景

建立视频扩散模型方面取得了进展，但下游任务的调整至关重要。监督微调复杂且繁琐，本文提出利用预训练奖励模型来适应视频扩散模型，学习顶尖视觉辨别模型的偏好。

VADER框架

本文提出VADER，通过奖励函数R(.)指定的特定任务来调整视频扩散模型θ。利用奖励函数相对于模型权重θ的梯度进行高效学习。

奖励模型

使用多种奖励函数来对齐视频扩散模型，包括图像-文本相似度奖励、视频-文本相似度奖励、图像生成目标和视频生成目标。

内存开销优化

VADER提出了减少内存使用的技巧，包括LoRA、混合精度、梯度检查点、截断反向传播和帧子采样。

实验结果

VADER专注于通过图像和视频定制的奖励模型对条件视频扩散模型进行微调，表现出高样本效率和计算效率，并在多种奖励模型上表现良好。

结论

VADER是一个样本和计算高效的框架，通过奖励梯度对预训练视频扩散模型进行微调。它对条件无关，并且适用于文本到视频和图像到视频的扩散模型。

想要了解更多内容？

查看原文：如何高效定制视频扩散模型？卡内基梅隆提出VADER：通过奖励梯度进行视频扩散对齐

文章来源：

AI生成未来

扫码关注公众号

相关推荐

AI正在弱化人们的“耐心”

215

专注与耐性

AI黑云压城，程序员真的没有未来了吗？

368

AI 工作工具 ChatGPT

有人说 AI 将会造成大部分人的失业，对于这件事你有什么看法？

Meta发布Llama3.1，OpenAI推出AI搜索SearchGPT，Deepmind获得奥数银牌，这就是这周的AI大新闻。

410

模型 AI https 生成

7.24~7.29，又是刺激的一周。\x0d\x0a这周的AI大事件，都在这里啦。

吴恩达新课来了！

301

AI 课程生成式成式

紧跟趋势，学起来~

对比Streamlit，利用Taipy创建数据科学和大模型应用

442

数据 Taipy LLM 示例

弥合数据科学、大模型与应用开发之间的鸿沟

7个AI和ML工程师必知的向量数据库

643

向量搜索数据库 AI

介绍七款业界推崇的向量数据库。

AIGC最新技术及资讯

159 篇文章

浏览 68.7K

AI生成未来的其他文章

图像生成地表最强！Playground v2.5技术报告解读重磅来袭！超越SD、DALL·E 3和 Midjourney

点击上方蓝字，关注 AI 生成未来，干货不停后台??

模糊文字如何恢复高清？效果惊艳的基于扩散模型的文本图像超分辨率技术

作者：Yuzhe Zhang等解读：AIGCer 恢复低分辨率文本图像

CVPR 2024 | 万物皆可移动！SceneDiffusion：可控场景生成新SOTA!（Meta AI&南洋理工）

点击下方卡片，关注“AI生成未来”>>后台回复“

即插即用！CVD：第一个生成具有相机控制的多视图一致视频方案！（斯坦福&港中文）

点击下方卡片，关注“AI生成未来”>>后台回复“

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘

击下方卡片，关注“AI生成未来”>>后台回复“GAI

随机阅读

一表搞定最小可行产品（MVP）与最小可市场化特性（MMF）

COSMIC规模度量案例集二：业务应用软件案例——银行卡签约/解约

COSMIC规模度量案例集四：业务应用软件案例—新增用户

敏捷团队章程的实践精要

Lehman的软件演化定律

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线