扫码阅读

手机扫码阅读

Control Color：图像着色新SOTA！南洋理工大学最新

217 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：Control Color：图像着色新SOTA！南洋理工大学最新

文章来源：

AI生成未来

扫码关注公众号

摘要

本文介绍了一种名为CtrlColor的多模态着色方法，旨在改进图像着色的可控性和质量，特别是在交互式着色、局部着色调节和颜色真实性方面。CtrlColor基于预训练的Stable Diffusion模型，通过集成文本提示、笔划和示例等多种条件，支持在统一框架内处理无条件和有条件的图像着色。此外，该方法采用自注意力和内容引导的可变形自编码器新模块，有效解决了颜色溢出和不正确的颜色问题。

介绍

图像着色技术尽管已经取得了进展，但在自动着色方法中仍存在诸多挑战，如颜色溢出、色彩扭曲以及着色不完整等。CtrlColor框架使用潜在扩散模型，并引入了自注意力和内容引导的可变形自编码器，以提高着色质量和色彩丰富度。

相关工作

研究分为无条件着色、基于笔划的着色、基于示例的着色和基于提示的着色等类型，各自面临不同的挑战。现有技术包括GANs和Transformer，但在多模态着色和颜色溢出处理上仍有局限性。

方法论

CtrlColor框架包括图像着色潜在扩散模型和内容引导的可变形自编码器两大组件。无条件着色利用自编码器编码L通道作为额外条件，有条件着色则通过交叉注意力层融合文本提示、笔划和示例等信息。为解决颜色溢出，引入了基于自注意力和内容引导的新模块。

实验

模型在ImageNet和COCO-stuff数据集上进行了训练和评估。与其他先进方法相比，CtrlColor在色彩丰富度、FID和CLIP分数等方面取得了优异的性能，并且用户研究显示出较高的满意度。

结论

CtrlColor成功实现了高度可控的多模态图像着色，提供了丰富的颜色选择和高用户互动性，并有效地缓解了颜色溢出和着色错误问题。这一研究为使用SD模型处理多控制着色和解决着色错误问题提供了新的视角。

想要了解更多内容？

查看原文：Control Color：图像着色新SOTA！南洋理工大学最新

文章来源：

AI生成未来

扫码关注公众号

相关推荐

一文掌握理想学习华为的书单

851

华为学习变革 IPD

李想说：人和人之间唯一的差别就是学习能力和学习速度。

AI黑云压城，程序员真的没有未来了吗？

369

AI 工作工具 ChatGPT

有人说 AI 将会造成大部分人的失业，对于这件事你有什么看法？

我被《长相思》里的AI相柳，硬控了整整两小时。

333

AI 相柳。。。相思

我只是一个AI博主，我真的不是gay

我花了4天时间，做了一个能实时监控主流AI信息的频道....

306

AI Discord 监控 MJ

免费向所有人开放！

解密GCN，手把手教你用PyTorch实现图卷积网络

621

神经网络节点矩阵邻居

介绍图神经网络（GNNs）及其在PyTorch框架下的实现过程。

虚拟试衣&人像合成新SOTA！IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍档

284

点击下方卡片，关注“AI生成未来”>>后台回复“

AIGC最新技术及资讯

159 篇文章

浏览 69K

AI生成未来的其他文章

视频生成领域第一个World Model来了！WorldDreamer：视频生成任务的通用模型

关注【AI生成未来】公众号，回复“GAI”，免费获取??

DALL-E 3不到50%，SDXL仅24.92%！各大SOTA文生图模型为啥这么难符合常识？

.点击下方卡片，关注“AI生成未来”>>后台回复??

字节&UC伯克利新研究 | Magic-Me：简单有效的主题ID可控视频生成框架

关注【AI生成未来】公众号，回复“GAI”，免费获取??

超燃！纯AI生成《泰坦尼克号》大片！浙大&阿里发布MovieDreamer:超长电影生成"梦工厂"

点击下方卡片，关注“AI生成未来”>>后台回复??

ChatGPT成立一周年：开源大语言模型正在迎头赶上吗？

很多人已经开始慢慢依赖ChatGPT，把它当成了私人助理

随机阅读

敏捷实践大全

《非暴力沟通》读书笔记

案例：每日站立会议落实情况的再跟踪

聊聊故事点背后的故事

公司级项目管理例会的汇报内容

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线