【分割一切模型SAM的潜力与展望:综述】
本篇文章是个人看文献的一些总结和个人的想法,都是个人看过文章之后的理解,不保证一定是对的,如果我的理解有错,欢迎纠正。
(2023.5.3)
SAM模型的介绍: Meta公司提出的SAM在2023年取得重要突破,在图像分割领域获得优异性能,被称为图像分割终结者。SAM通过数据引擎方法用三阶段采集的、包含1100万图像和超过10亿掩码的SA-1B图像分割数据集,保证了掩码的品质和多样性。
SAM模型由图像编码器、提示编码器和掩码解码器三部分组成。图像编码器负责将输入图像映射至特征空间。提示编码器处理用户输入的提示,包括点、框、文本等。掩码解码器整合图像编码和提示编码的信息,解码出最终的分割掩码。
Semantic-SAM是对原始分割一切模型(SAM)的扩展,它增强了模型在图像分割任务中的多粒度处理能力和语义理解。该模型能够识别并分割图像中的对象及其组成部分,提供更丰富的细节和准确的语义标签。通过联合训练和优化的框架结构,Semantic-SAM在多种场景下展现出了优越的分割性能,包括医学图像分析等专业领域,证明了其在实际应用中的广泛潜力和灵活性。
SAM的应用:
鉴于 SAM 具有卓越的泛化能力,一些研究人员将其应用于目标检测任务中。SAM + MMDetection 框架将 SAM 应用到了目标检测领域。
目标计数是计算机视觉的一项基础技术,在人群计数、细胞计数和车辆技术等领域都有着广泛的应用。为了验证SAM在计数任务上的扩展性,Ma等人(2023b)第1个探讨了使用SAM进行少样本目标计数任务的评估。目标是验证 SAM 能否使用参考样例对目标对象进行识别和分割。
复杂图像分割涉及到一些特殊的场景,如遥感图像分割、低对比度图像分割和热红外成像分割。这些场景通常具有图像对比度低、标注难度大、数据集稀缺等缺点。尽管SAM是一个交互式框架,其输出结果在很大程度上取决于提示的类型、位置和数量,但它在复杂场景中也展现出了一定的应用潜力。
Chen等人设计了一种自动化实例分割遥感图像的方法,将语义类别信息整合到SAM中,输出带有语义标签的遥感图像分割结果。
为了生成更准确的提示,提出了RSprompter结构,该结构能够生成面向SAM的提示器,提高遥感图像分割的效率和质量。
利用HQ-SAM优化TAM,实现更高质量的视频目标追踪。
Liu 等人提出了一种名为分割任何点云序列(segmentation any point cloud sequences,Seal)的新型框架,它利用SAM来分割各种不同的汽车点云序列。Seal具有3个新的特性:1)可扩展性。Seal将视觉基础模型(vision foundation model,VFM)直接转化为点云,消除了在预训练过程中需要 2D 或 3D 标注的需求。2)一 致 性 。 在 摄 像 机 到 激 光 雷 达(laser radar,LiDAR)和点到分割阶段都强制执行了空间和时间关系,促进了跨模态表示学习。3)通用性。Seal 以一种即插即用的方式实现知识传递,适用于涉及各种点云的下游任务,包括来自真实/合成、低/高分辨率、大/小规模和干净/受损数据集的任务。
在人工智能领域,数据标注是将数据标记为帮助机器学习算法学习识别特定模式、对象或特征的过程。准确的数据标注对于开发能够成功执行对象检测、分类和自然语言处理等任务的有效机器学习模型至关重要。然而,在某些领域,特别是图像和视频标注的成本较高,导致许多数据集在像素级别上没有被有效标记。SAM(提示式分割模型)的出现,有望促进这些数据集的有效标注。
SAM模型整体应用策略:
SAM未来的研究方向:
- 模块化
- 弱监督语义分割
- 多模态融合图像分割
- 对SAM进行高效率微调
- 运用格式塔心理学的整体认知观加强SAM的对抗鲁棒性