基于YOLOv8，YOLO新作来了！

模型 YOLO 检测文本 World

发布于 2024-09-29

319

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：基于YOLOv8，YOLO新作来了！

文章来源：

啥都会一点的研究生

扫码关注公众号

扫码阅读

手机扫码阅读

腾讯人工智能实验室最近发布了一个名为YOLO-World的零样本物体检测模型，旨在提高开放词汇的检测能力并解决现有零样本目标检测模型在速度上的限制。YOLO-World区别于使用缓慢的Transformer架构，而是基于更快的CNN架构，其研究论文和代码已公布在线。

传统的对象检测模型如Faster R-CNN、SSD和YOLO局限于预定义数据集内的对象。Open-Vocabulary Object Detection（OVD）模型则致力于识别预定义类别之外的对象，如GLIP和Grounding DINO等早期方法，通过大规模图像文本数据扩展训练词汇，允许模型检测新物体。然而，这些方法往往较大且计算密集，不适合实际应用。

与早期方法不同，YOLO-World通过理解提示中的上下文来提供检测，无需对特定类别训练。这是因为它已经在图像文本对和基础图像上训练，学会了如何接受任意提示并应用于检测。YOLO-World引入了“先提示后检测”的模式，避免了实时文本编码的需要，用户可以生成提示后将其编码为离线词汇表，提高了速度和适应性。

YOLO-World模型由三个关键部分组成：YOLO Detector，基于YOLOv8提取图像特征；文本编码器，基于OpenAI CLIP的Transformer文本编码器；以及RepVL-PAN，用于图像特征和文本嵌入之间的多级跨模态融合，加速推理和部署。

YOLO-World提供了large、medium、small三种模型大小，并在LVIS数据集上进行了基准测试。测试结果显示large版本达到35.4 AP（52.0 FPS），small版本达到26.2 AP（74.1 FPS），展示了良好的性能。进一步的体验和了解可以通过Hugging Face平台进行。

文章最后提到了一些有关人工智能的推荐阅读材料，以及一个关于激活函数三十年回顾的详细研究，以及2023年视觉领域的突破性研究。