扫码阅读
手机扫码阅读

风格控制水平创新高!南理工&InstantX&小红书发布CSGO:简单高效的端到端风格迁移框架

153 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

摘要

摘要

本文提出了一个新的风格迁移数据集IMAGStyle和风格迁移模型CSGO,以及一种内容对齐评分(CAS)用于评估风格迁移质量。IMAGStyle数据集是首个包含21万图像三元组的大规模风格迁移数据集,而CSGO框架是基于端到端训练的风格迁移模型,实现了图像和文本驱动的风格迁移和合成。大量实验结果表明,CSGO在零样本风格迁移方面取得了先进成果。

数据集和框架介绍

IMAGStyle数据集通过自动化的pipeline构建,包括内容图像、风格图像和风格化图像三元组。该数据集使用了来自不同来源的丰富内容和风格图像,如MSRA10K、MSRA-B和Wikiart数据集。CSGO框架支持图像和文本驱动的风格迁移以及文本编辑驱动的风格化合成。

方法和实验

CSGO框架通过独立的内容和风格控制模块实现有效的风格迁移和内容保留。内容控制通过预训练的ControlNet和交叉注意力层实现,而风格控制通过注入风格LoRA到基础UNet中实现。模型在IMAGStyle数据集上进行端到端训练,并在测试集上评估,实验结果表明CSGO在风格迁移任务中表现优异。

消融研究和结论

消融研究表明,内容控制和风格控制策略对于保持内容质量和风格迁移效果至关重要。最后,研究者指出,虽然CSGO已取得显著成果,但通过进一步扩大数据集和优化特征提取方法,风格迁移质量有望提高。

想要了解更多内容?