扫码阅读
手机扫码阅读

Control Color:图像着色新SOTA!南洋理工大学最新

101 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:Control Color:图像着色新SOTA!南洋理工大学最新
文章来源:
AI生成未来
扫码关注公众号

摘要

本文介绍了一种名为CtrlColor的多模态着色方法,旨在改进图像着色的可控性和质量,特别是在交互式着色、局部着色调节和颜色真实性方面。CtrlColor基于预训练的Stable Diffusion模型,通过集成文本提示、笔划和示例等多种条件,支持在统一框架内处理无条件和有条件的图像着色。此外,该方法采用自注意力和内容引导的可变形自编码器新模块,有效解决了颜色溢出和不正确的颜色问题。

介绍

图像着色技术尽管已经取得了进展,但在自动着色方法中仍存在诸多挑战,如颜色溢出、色彩扭曲以及着色不完整等。CtrlColor框架使用潜在扩散模型,并引入了自注意力和内容引导的可变形自编码器,以提高着色质量和色彩丰富度。

相关工作

研究分为无条件着色、基于笔划的着色、基于示例的着色和基于提示的着色等类型,各自面临不同的挑战。现有技术包括GANs和Transformer,但在多模态着色和颜色溢出处理上仍有局限性。

方法论

CtrlColor框架包括图像着色潜在扩散模型和内容引导的可变形自编码器两大组件。无条件着色利用自编码器编码L通道作为额外条件,有条件着色则通过交叉注意力层融合文本提示、笔划和示例等信息。为解决颜色溢出,引入了基于自注意力和内容引导的新模块。

实验

模型在ImageNet和COCO-stuff数据集上进行了训练和评估。与其他先进方法相比,CtrlColor在色彩丰富度、FID和CLIP分数等方面取得了优异的性能,并且用户研究显示出较高的满意度。

结论

CtrlColor成功实现了高度可控的多模态图像着色,提供了丰富的颜色选择和高用户互动性,并有效地缓解了颜色溢出和着色错误问题。这一研究为使用SD模型处理多控制着色和解决着色错误问题提供了新的视角。

想要了解更多内容?

查看原文:Control Color:图像着色新SOTA!南洋理工大学最新
文章来源:
AI生成未来
扫码关注公众号