无性能损失!让SAM加速近50倍!EfficientViT-SAM来了!
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
摘要
本文介绍了EfficientViT-SAM,这是一个通过EfficientViT来加速SAM系列的新工作。EfficientViT-SAM保持了SAM的轻量级提示编码器和mask解码器,但将图像编码器替换为EfficientViT,同时引入了知识蒸馏和端到端训练,实现了在A100 GPU上相对于SAM-ViT-H的48.9倍加速,而性能不受影响。
介绍
SAM系列模型在图像分割领域表现出色,但其高计算成本限制了实际应用。为了提升效率,EfficientViT-SAM利用EfficientViT替换了SAM的计算密集型图像编码器,并通过两阶段训练过程,显著提升了性能和效率。
相关工作
在SAM的基础上,提出了多种旨在提高模型效率的方法,包括MobileSAM、EdgeSAM和EfficientSAM。本工作旨在通过高效的模型架构设计和知识蒸馏,进一步提高深度学习计算的效率。
方法
EfficientViT-SAM结合了EfficientViT的高效性和SAM的强大分割能力。EfficientViT采用多尺度线性注意力模块代替传统softmax注意力,降低了计算复杂度。EfficientViT-SAM的训练包括知识蒸馏和端到端训练两个阶段。
实验
实验结果表明,EfficientViT-SAM在zero-shot分割任务中提供了显著的性能和效率提升。与SAM和其他加速模型相比,EfficientViT-SAM在参数数量、MACs和吞吐量方面均表现出色。
结论
EfficientViT-SAM是一个在保持性能的同时大幅提升图像分割效率的模型。源代码和预训练模型已在GitHub上开源。
想要了解更多内容?