扫码阅读
手机扫码阅读

GLEE:一个模型搞定目标检测/实例分割/定位/跟踪/交互式分割等任务!性能SOTA!

143 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:GLEE:一个模型搞定目标检测/实例分割/定位/跟踪/交互式分割等任务!性能SOTA!
文章来源:
AI生成未来
扫码关注公众号

摘要

GLEE是一个面向目标级别的基础模型,旨在定位和识别图像和视频中的目标。它通过统一的框架实现了对开放世界场景中任意目标的检测、分割、跟踪、定位和识别,展现出卓越的多功能性和泛化性能。GLEE采用图像编码器、文本编码器和视觉提示器处理多模态输入,实现zero-shot迁移到新数据和任务,同时保持领先性能。模型在超过五百万张不同基准数据集的图像上进行了训练,并通过集成大量自动标注数据进一步增强了其zero-shot泛化能力。

引言

GLEE应对了视觉基础模型在定位和识别目标方面的局限性,通过统一的输入-输出范式和大规模预训练,能够预测通用的目标表示,以zero-shot方式推广到新任务,并具有扩展训练数据的低成本能力。

相关工作

与NLP领域的基础模型相比,当前的视觉基础模型通常局限于单任务学习框架。GLEE作为一个通用的目标视觉基础模型,能够同时处理多个以目标为中心的任务,并提供通用的目标表示。

方法

GLEE通过图像编码器、文本编码器、视觉提示器和目标解码器来处理多模态输入,并通过统一的训练范式,在大规模多源数据上进行联合训练。它能够统一不同类型的目标感知任务,并通过引入自动标注数据实现训练数据的规模扩大。

实验

GLEE在多个标准数据集上进行了广泛训练,并在zero-shot迁移到视频任务和现实世界下游任务时展现出强大的泛化能力。模型在各种目标级任务上取得了最先进的性能,并通过规模化进一步增强了zero-shot能力。

结论

GLEE作为目标级基础模型,在目标级图像和视频任务中取得了突出成就,具有强大的多功能性和泛化能力。这为现代语言模型提供了缺失的视觉目标级信息,并为面向目标的多模态语言模型奠定了基础。

想要了解更多内容?

查看原文:GLEE:一个模型搞定目标检测/实例分割/定位/跟踪/交互式分割等任务!性能SOTA!
文章来源:
AI生成未来
扫码关注公众号