扫码阅读
手机扫码阅读
绝地归来!英伟达等提出JeDi:无需微调,个性化图像生成新SOTA![CVPR 2024]

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

AI生成未来
扫码关注公众号
摘要
本文介绍了一种新的无需微调的个性化文本生成图像方法,名为Joint-Image Diffusion (JeDi),能够创建高保真度的个性化图像。JeDi利用共享主题的多图像数据集,通过联合图像扩散模型,高效地学习文本与图像对应关系。不同于以往的方法,JeDi不需昂贵的优化过程或微调,且在生成质量上显著优于现有技术。
方法介绍
研究者们提出了一种可扩展的合成数据集生成技术,创造了包含同一主题的图像-文本对的大规模数据集。通过改进架构和采样技术,如耦合自注意力和图像引导,JeDi模型在训练后可以快速且简便地实现个性化文本生成图像。
个性化文本生成图像
JeDi模型把个性化文本生成图像问题视为修补任务,通过引入参考图像和二进制mask来实现个性化修复。在采样过程中结合文本引导和图像引导,提高了生成样本对输入参考图像的忠实度。
实验
构建了名为S3的合成数据集,通过实验验证了JeDi模型的有效性。在定量和定性评估方面,JeDi均优于先进的无需微调方法和基于微调的方法。消融研究表明,JeDi模型的设计选择对提高个性化结果至关重要。
结论
JeDi模型是一种新颖的无需微调的个性化文本到图像生成方法,它利用联合图像扩散学习共享主题的多图像分布。实验结果证明,JeDi在生成个性化图像方面的性能超过了现有技术。
想要了解更多内容?

AI生成未来
扫码关注公众号
AI生成未来的其他文章
CVPR 2024 | 万物皆可移动!SceneDiffusion:可控场景生成新SOTA!(Meta AI&南洋理工)
点击下方卡片,关注“AI生成未来”>>后台回复“
只需一步!One-Step图像转换来了!亲测效果惊艳!(卡内基梅隆&Adobe)
点击下方卡片,关注“AI生成未来”>>后台回复“
ECCV`24 | 编辑能力无上限!北航&谷歌&旷视等开源Chat-Edit-3D: 3D 场景编辑新范式!
点击下方卡片,关注“AI生成未来”>>后台回复“
MSRA古纾旸:2024年,视觉生成领域最重要的问题有哪些?
点击下方卡片,关注“AI生成未来”>>后台回复“
ECCV`24 | 首次解决文本到3D NeRFs分解问题!港中文等提出DreamDissector
点击下方卡片,关注“AI生成未来”>>后台回复“
加入社区微信群
与行业大咖零距离交流学习


PMO实践白皮书
白皮书上线
白皮书上线