ECCV`24 | 蚂蚁集团开源风格控制新SOTA!StyleTokenizer:零样本精确控制图像生成
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
亮点直击
本文介绍了一种名为StyleTokenizer的新方法,它允许使用任意参考图像在扩散模型中进行精确的风格控制。此外,提供了一个包含300多种风格的Style30k数据集,用于训练能有效表示风格信息的强大风格编码器。
总结速览
解决的问题:
- 在文本生成图像过程中,现有方法难以同时有效控制图像风格与保持文本提示的语义信息。
- 多数方法在去噪过程中施加图像表示条件会与文本控制条件产生干扰,影响风格控制和文本控制效果。
- 从单一参考图像中准确提取和表达风格是一个具有挑战性的问题。
提出的方案:
- StyleTokenizer方法通过将风格表示与文本表示对齐,避免风格控制与文本控制条件间的干扰。
- 创建Style30k数据集,训练模型更好地提取和表示风格特征。
- 设计风格特征提取器,准确捕捉和表达参考图像的风格特征,同时排除其他内容信息。
应用的技术:
- StyleTokenizer和风格特征提取器用于避免风格和文本控制条件间的干扰。
- 对比学习增强风格特征提取器的鲁棒性,使其更好地适应和处理新的风格。
达到的效果:
- StyleTokenizer方法能够充分捕捉参考图像的风格特征,并生成与目标图像风格和文本提示一致的图像。
- 相比现有方法,实现了高效、准确的风格控制,同时保持文本提示语义的完整性。
方法
研究提出了基于Stable Diffusion框架的方法,通过风格编码器和风格标记器两个关键模块,实现风格与内容条件的解耦。风格编码器负责提取风格信息,风格标记器将风格表示转换为token并与文本token对齐。
StyleTokenizer方法总体流程
首先,在风格数据集上训练风格编码器获得风格表示能力,使用对比学习强化表示。然后,风格编码器提取单个图像风格嵌入,风格标记器将其转换为风格标记,对齐文本token。最终,token作为生成图像的条件输入到SD pipeline中。
Style30K数据集
Style30K是一个复杂的风格数据集,由专业设计师手动收集,专门训练风格相关的特征提取能力。构建过程包括收集图像、特征提取和检索、手动筛选和内容描述添加。
风格编码器
风格编码器通过监督学习从图像中提取与风格相关的信息,通过对比损失的监督策略增强模型处理新风格的鲁棒性。
风格控制
使用StyleTokenizer将风格嵌入和文本嵌入结合,输入到SD的文本编码器中,从而生成具有期望风格的图像。
实验
研究团队使用了1000万张高质量图像训练风格编码器和Stable Diffusion模型,利用Style30K数据集进行监督训练,并与其他方法进行了质量评价和定量评估。
风格编码器评估
通过与其他特征编码器的对比,评估表明风格编码器在捕捉和展示图像风格方面表现优秀。
消融研究
消融研究表明风格编码器和Style Tokenizer的有效性,在生成图像的指令跟随能力和风格一致性上都扮演重要角色。
其他应用
方法可以用于风格融合,产生具有新风格的图像。
总结和展望
这一创新的zero-shot方法通过分离风格和内容条件,为图像生成中的风格控制提供了新的可能性。它开辟了生成高质量风格化内容的新途径。
想要了解更多内容?