HEIM | 没有单一模型在所有方面都表现出色
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
自动驾驶的发展受限于感知、决策和控制系统的复杂集成,其中传统方法在理解复杂驾驶环境和道路使用者意图方面存在瓶颈。视觉语言模型(VLM)的出现代表了实现完全自主驾驶车辆的新领域。本报告对VLM技术进行了评估,探讨了其在自动驾驶场景中的应用,尤其在场景理解和因果推理方面表现出色,但仍面临挑战,如方向判断和交通灯识别等。
NExT-Chat: An LMM for Chat, Detection and Segmentation
大型语言模型(LLMs)推动了多模态理解领域的进展,NExT-Chat是一个利用pixel2emb方法的LMM,它训练了多任务处理能力,如视觉引导和场景描述,并在资源受限的情况下优于现有方法。
Video Instance Matting
传统视频抠图技术存在限制,本文提出了视频实例抠图(VIM)方法MSG-VIM,提高了alpha抠图的时间一致性,并建立了VIM50基准和VIMQ评估标准,MSG-VIM在VIM50上表现优越。
EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision
EmerNeRF是一种基于神经场的方法,通过自我监督学习动态驾驶场景的时空表示。它提高了静态和动态场景的重建性能,并通过对3D感知性能的提升,在传感器模拟中实现了先进的性能。同时,构建了一个数据集以基准测试神经场在极端和动态环境中的表现。
Holistic Evaluation of Text-To-Image Models
文本到图像模型的最新进展引起了广泛关注,但缺乏全面评估。本文引入了文本到图像模型的整体评估(HEIM)基准,确定了评估模型能力和风险的12个方面,并在此基准测试中评估了26个模型,结果显示模型在不同方面有不同优势。
想要了解更多内容?
白皮书上线