扫码阅读
手机扫码阅读
绝地归来!英伟达等提出JeDi:无需微调,个性化图像生成新SOTA![CVPR 2024]
178 2024-10-25
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
AI生成未来
扫码关注公众号
摘要
本文介绍了一种新的无需微调的个性化文本生成图像方法,名为Joint-Image Diffusion (JeDi),能够创建高保真度的个性化图像。JeDi利用共享主题的多图像数据集,通过联合图像扩散模型,高效地学习文本与图像对应关系。不同于以往的方法,JeDi不需昂贵的优化过程或微调,且在生成质量上显著优于现有技术。
方法介绍
研究者们提出了一种可扩展的合成数据集生成技术,创造了包含同一主题的图像-文本对的大规模数据集。通过改进架构和采样技术,如耦合自注意力和图像引导,JeDi模型在训练后可以快速且简便地实现个性化文本生成图像。
个性化文本生成图像
JeDi模型把个性化文本生成图像问题视为修补任务,通过引入参考图像和二进制mask来实现个性化修复。在采样过程中结合文本引导和图像引导,提高了生成样本对输入参考图像的忠实度。
实验
构建了名为S3的合成数据集,通过实验验证了JeDi模型的有效性。在定量和定性评估方面,JeDi均优于先进的无需微调方法和基于微调的方法。消融研究表明,JeDi模型的设计选择对提高个性化结果至关重要。
结论
JeDi模型是一种新颖的无需微调的个性化文本到图像生成方法,它利用联合图像扩散学习共享主题的多图像分布。实验结果证明,JeDi在生成个性化图像方面的性能超过了现有技术。
想要了解更多内容?
文章来源:
AI生成未来
扫码关注公众号
AI生成未来的其他文章
一言、一格和一念,百度的生成内容生态圈
文心一言、文心一格和百度智能云一念都是百度推出?
CVPR 2024 | 稳定提升!CAN和Diffusion Transformer才是最佳拍档(MIT&清华&英伟达)
点击下方卡片,关注“AI生成未来”>>后台回复“
超越5大最先进的视频生成系统!MagicVideo-V2:多阶段高保真视频生成框架(字节)
关注【AI生成未来】公众号,回复“GAI”,免费获取??
一文详解大语言模型的流行架构与训练技术
点击下方卡片,关注“AI生成未来”>>关注【AI生
单图创造虚拟世界只需10秒!斯坦福&MIT联合发布WonderWorld:高质量交互生成
点击下方卡片,关注“AI生成未来”>>后台回复“
加入社区微信群
与行业大咖零距离交流学习
SAFe6.0与CMMI3.0映射
白皮书上线
白皮书上线