扫码阅读
手机扫码阅读

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)

100 2024-10-25

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)
文章来源:
AI生成未来
扫码关注公众号

摘要

为了改善场景文本分割中文本边缘的准确性,本研究提出了一种边缘感知Transformer(EAFormer)。EAFormer通过明确预测文本边缘并使用这些边缘来指导编码器的训练,从而实现了在文本分割任务中的出色表现。此外,研究对COCO_TS和MLT_S数据集重新标注,以解决原标注质量不高的问题,并通过此改进进一步提升了EAFormer的实验结果。

EAFormer包含三个关键模块:文本边缘提取器、边缘引导编码器和文本分割解码器。文本边缘提取器利用Canny算法检测图像边缘,再通过一个轻量级文本检测模型来过滤非文本区域的边缘。边缘引导编码器基于SegFormer框架,通过自注意力机制和交叉注意力层来加强对文本边缘的感知。最后,文本分割解码器使用MLP层来融合特征并预测文本mask。

在损失函数方面,EAFormer仅使用了两种交叉熵损失(文本检测损失和文本分割损失)来简化模型的优化过程。广泛的实验结果表明,EAFormer在六个场景文本分割基准上达到了最先进的性能,尤其是在处理文本边缘区域时。此外,研究还进行了消融实验,探讨了超参数、边缘过滤和边缘引导对性能的影响。

EAFormer的局限性在于它增加了模型参数数量,并且仅使用了传统的Canny算法来提取边缘而非更先进的深度学习方法。不过,即便如此,EAFormer仍在多个数据集上展示了其有效性,尤其是在重新标注后的COCO_TS和MLT_S数据集上。

总结而言,EAFormer通过利用边缘信息和引导编码器的设计,实现了对场景文本分割任务的显著改进,尤其是在处理文本边缘方面。

想要了解更多内容?

查看原文:图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)
文章来源:
AI生成未来
扫码关注公众号