ECCV`24 | 蚂蚁集团开源风格控制新SOTA!StyleTokenizer：零样本精确控制图像生成

发布于 2024-10-22

646

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：ECCV`24 | 蚂蚁集团开源风格控制新SOTA!StyleTokenizer：零样本精确控制图像生成

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

摘要：使用单一实例定义图像风格以控制扩散模型

亮点直击

本文介绍了一种名为StyleTokenizer的新方法，它允许使用任意参考图像在扩散模型中进行精确的风格控制。此外，提供了一个包含300多种风格的Style30k数据集，用于训练能有效表示风格信息的强大风格编码器。

总结速览

解决的问题：

在文本生成图像过程中，现有方法难以同时有效控制图像风格与保持文本提示的语义信息。
多数方法在去噪过程中施加图像表示条件会与文本控制条件产生干扰，影响风格控制和文本控制效果。
从单一参考图像中准确提取和表达风格是一个具有挑战性的问题。

提出的方案：

StyleTokenizer方法通过将风格表示与文本表示对齐，避免风格控制与文本控制条件间的干扰。
创建Style30k数据集，训练模型更好地提取和表示风格特征。
设计风格特征提取器，准确捕捉和表达参考图像的风格特征，同时排除其他内容信息。

应用的技术：

StyleTokenizer和风格特征提取器用于避免风格和文本控制条件间的干扰。
对比学习增强风格特征提取器的鲁棒性，使其更好地适应和处理新的风格。

达到的效果：

StyleTokenizer方法能够充分捕捉参考图像的风格特征，并生成与目标图像风格和文本提示一致的图像。
相比现有方法，实现了高效、准确的风格控制，同时保持文本提示语义的完整性。

方法

研究提出了基于Stable Diffusion框架的方法，通过风格编码器和风格标记器两个关键模块，实现风格与内容条件的解耦。风格编码器负责提取风格信息，风格标记器将风格表示转换为token并与文本token对齐。

StyleTokenizer方法总体流程

首先，在风格数据集上训练风格编码器获得风格表示能力，使用对比学习强化表示。然后，风格编码器提取单个图像风格嵌入，风格标记器将其转换为风格标记，对齐文本token。最终，token作为生成图像的条件输入到SD pipeline中。

Style30K数据集

Style30K是一个复杂的风格数据集，由专业设计师手动收集，专门训练风格相关的特征提取能力。构建过程包括收集图像、特征提取和检索、手动筛选和内容描述添加。

风格编码器

风格编码器通过监督学习从图像中提取与风格相关的信息，通过对比损失的监督策略增强模型处理新风格的鲁棒性。

风格控制

使用StyleTokenizer将风格嵌入和文本嵌入结合，输入到SD的文本编码器中，从而生成具有期望风格的图像。

实验

研究团队使用了1000万张高质量图像训练风格编码器和Stable Diffusion模型，利用Style30K数据集进行监督训练，并与其他方法进行了质量评价和定量评估。

风格编码器评估

通过与其他特征编码器的对比，评估表明风格编码器在捕捉和展示图像风格方面表现优秀。

消融研究

消融研究表明风格编码器和Style Tokenizer的有效性，在生成图像的指令跟随能力和风格一致性上都扮演重要角色。

其他应用

方法可以用于风格融合，产生具有新风格的图像。

总结和展望

这一创新的zero-shot方法通过分离风格和内容条件，为图像生成中的风格控制提供了新的可能性。它开辟了生成高质量风格化内容的新途径。

AI生成未来

查看原文：ECCV`24 | 蚂蚁集团开源风格控制新SOTA!StyleTokenizer：零样本精确控制图像生成

文章来源：

AI生成未来

扫码关注公众号

相关推荐

1分钟搭建自己的GPT网站

658

image.png 域名搭建 gpt

可能用不了1分钟

试完这个神级Prompt，我发现Claude3.5确实就是现在的No.1。

791

Prompt 汉语代码新解

辣个男人回来了。

快手可灵全球上线，无需排队，我们终于向全世界输出中国Sora。

828

可灵 AI 视频上线

今天我为国产AI摇大旗。

仅需30秒完美复刻任何人的声音 - 最强AI音频11Labs

511

TTS 11Labs 音频 AI

我的用词一直都挺克制的，基本不会用到“最强”这?

ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·准·好的图像编辑方法！港大&牛津

311

点击下方卡片，关注“AI生成未来”>>后台回复“

Chat gpt 4.5太令人失望了…

206

AI 4.5 deepseek 生成

有没有一种可能性，Open AI真的黔驴技穷了。

AI生成未来

AIGC最新技术及资讯

207 篇文章

浏览 88.7K

AI生成未来的其他文章

系统回顾生成式AI的发展：GANs、GPT、自编码器、扩散模型和Transformer系列

点击下方卡片，关注“AI生成未来” ChatGPT的推出引起

ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·准·好的图像编辑方法！港大&牛津

点击下方卡片，关注“AI生成未来”>>后台回复“

为Stable Diffusion模型瘦身并达到SOTA！LAPTOP-Diff：剪枝蒸馏新高度（OPPO）

击下方卡片，关注“AI生成未来”>>后台回复“GAI

大语言模型的前世今生：万字长文完整梳理所有里程碑式大语言模型（LLMs）

点击下方卡片，关注“AI生成未来”>>后台回复“

深入探讨基于大语言模型的数据标注

点击上方蓝字，关注 AI 生成未来，干货不停后台??

随机阅读

COSMIC规模度量案例集一：五个应用软件的需求规模度量

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

ECCV`24 | 蚂蚁集团开源风格控制新SOTA!StyleTokenizer：零样本精确控制图像生成

版权声明

亮点直击