图像文本擦除无痕迹！复旦提出EAFormer：最新场景文本分割新SOTA！(ECCV`24)

394 2024-10-25

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：图像文本擦除无痕迹！复旦提出EAFormer：最新场景文本分割新SOTA！(ECCV`24)

文章来源：

AI生成未来

扫码关注公众号

摘要

为了改善场景文本分割中文本边缘的准确性，本研究提出了一种边缘感知Transformer（EAFormer）。EAFormer通过明确预测文本边缘并使用这些边缘来指导编码器的训练，从而实现了在文本分割任务中的出色表现。此外，研究对COCO_TS和MLT_S数据集重新标注，以解决原标注质量不高的问题，并通过此改进进一步提升了EAFormer的实验结果。

EAFormer包含三个关键模块：文本边缘提取器、边缘引导编码器和文本分割解码器。文本边缘提取器利用Canny算法检测图像边缘，再通过一个轻量级文本检测模型来过滤非文本区域的边缘。边缘引导编码器基于SegFormer框架，通过自注意力机制和交叉注意力层来加强对文本边缘的感知。最后，文本分割解码器使用MLP层来融合特征并预测文本mask。

在损失函数方面，EAFormer仅使用了两种交叉熵损失（文本检测损失和文本分割损失）来简化模型的优化过程。广泛的实验结果表明，EAFormer在六个场景文本分割基准上达到了最先进的性能，尤其是在处理文本边缘区域时。此外，研究还进行了消融实验，探讨了超参数、边缘过滤和边缘引导对性能的影响。

EAFormer的局限性在于它增加了模型参数数量，并且仅使用了传统的Canny算法来提取边缘而非更先进的深度学习方法。不过，即便如此，EAFormer仍在多个数据集上展示了其有效性，尤其是在重新标注后的COCO_TS和MLT_S数据集上。

总结而言，EAFormer通过利用边缘信息和引导编码器的设计，实现了对场景文本分割任务的显著改进，尤其是在处理文本边缘方面。

想要了解更多内容？

查看原文：图像文本擦除无痕迹！复旦提出EAFormer：最新场景文本分割新SOTA！(ECCV`24)

文章来源：

AI生成未来

扫码关注公众号