【视觉大模型 SAM 在医学图像分割中的应用综述】
本篇文章是个人看文献的一些总结和个人的想法,都是个人看过文章之后的理解,不保证一定是对的,如果我的理解有错,欢迎纠正。
(2024.5.20)
图像分割技术可以精准识别和定位医学图像中的解剖结构,为临床医生提供详细的三维解剖信息。
虽然以前深度学习(如CNN、RNN和U-Net)在医学图像分割上取得了显著进展,但在适应多模态图像和处理不同下游任务时仍存在诸多挑战。
视觉大模型(VFM)通过在海量数据上进行预训练,捕捉了丰富的视觉特征,已在自然图像、视频分析等领域取得成功。SAM是基于提示驱动的VFM,能够适应多种成像模态的图像。
主要的数据集:
SA-1B:包含1100万张图像和超过10亿个高质量的分割掩码。
SA-Med2D-20M:涵盖了10种模态和31个主要器官的460万张医学图像和1970万个掩码。
COSMOS 1050K:包含多种模态和对象类型的105万张图像。
BraTS:专注于脑肿瘤分割的多模态脑部图像数据集。
CAMUS:用于超声心脏图像分割和体积估计的数据集。
SAM模型介绍:
SAM通过提示驱动,旨在统一解决所有的图像分割问题。其灵活的提示分割机制能够适应多种类型的医学图像,降低了对医学数据的依赖,提高了研究效率。
SAM模型的框架图↓
原SAM的提示方式主要有点提示和框提示。
SAM的泛化性分析:
传统的图像分割方法通常集中在特定领域,然而,这些方法的泛化能力有限,在未曾训练的领域几乎完全失效。即使通过重新训练来适应新领域,这也会带来巨大的时间和成本压力。
SAM 采用提示驱动的思想,巧妙地将预训练模型与特定下游任务深度融合。在多种场景(如内镜和显微镜下)和多种图像模态中,SAM 展现出较强的泛化性,几乎不需要操作、不需标注数据、不需训练模型,也能快捷有效地完成图像分割任务。
SAM的评价指标: (1)Dice系数因其简单直观且有效地度量了两个集合相似度的能力,被广泛用于评估图像分割算法的性能。Dice 系数的取值范围为[0,1],取值越大则说明两样本的重合度越高,相似性越强。Dice系数的公式为:
(2)IoU计算的是算法分割结果与实际标签的交集面积与它们的并集面积之比。IoU的取值范围为[0,1],取值越大则说明两个区域的重叠程度越高,相似性越强。IoU 的公式如下:
(3)HD则关注两个区域之间的形状相似性,通过考虑最远点的距离,提供了更全面的形状匹配度量。然而,由于其计算相对复杂,该评价指标的使用频率相对较低。HD的值越大,说明算法性能越差,分割结果与真实形状的差异越明显。HD的公式如下:
SAM的应用领域:
(1)SAM模型在WSI(Whole Slide Imaging)方面的应用:WSI是一种高分辨率数字成像技术,主要应用于病理学领域。它通过数字扫描整个组织切片,产生高分辨率的全景图像,包括细胞、组织结构和病变等信息。SAM将WSI图像分割为细胞、核心、背景等不同区域,能定量地提取有关组织结构和病变的信息,以帮助诊断、研究和治疗规划。
(2)SAM模型在MRI(Magnetic Resonance Imaging)方面的应用:MRI是一种利用磁场和射频波成像的技术,广泛应用于脑部、脊柱和关节等部位的医学图像分割。SAM在MRI图像分割中表现优异,特别是在脑部和脊柱的分割任务中,能够准确区分不同组织和病变区域。
(3)SAM模型在CT(Computed Tomography)中的应用:CT是一种利用X射线进行成像的技术,广泛应用于胸部、腹部和骨骼等部位的医学图像分割。尽管SAM在CT图像分割中面临低对比度和边界不清的问题,但通过借鉴LLM技术和专门的提示策略设计,可以提高分割速度和准确性。
(4)SAM模型在US(Ultrasound)中的应用:US利用超声波在人体组织中的传播和反射原理生成图像。US图像分割在产科、心脏学、肝脏等多个医学领域具有重要意义。研究表明,SAM在心脏组织、甲状腺结节和胎儿脑部的US图像分割中表现良好,能够为医生提供更全面的视觉信息,提高诊断和治疗的准确性。
(5)SAM模型在多模态中的应用:多模态医学图像分割涉及同时处理多种成像技术(如MRI、CT、PET)的数据。SAM在多模态图像分割中的应用,能够融合不同成像技术的优势,提供更全面和准确的分割结果。
SAM 在医学图像分割中应用的总结:
- SAM在医学图像分割中的泛化能力显著,尤其是在分割较大器官的图像上表现出色。并且能够适应不同的成像模态和解剖结构,通过结合其他注意力机制提升分割性能。
- SAM利用提示驱动(prompt-driven)的方式进行下游分割任务,这种方法无需大量标注数据,减少了对医学图像数据的依赖,降低了人工时间的投入。
- 虽然SAM最初设计用于2D图像分割,但通过增加适配器或调整编码器等方法,也可以用于3D医学图像分割。
- 结合其他注意力机制的SAM能够有效捕获不同模态图像的信息,并在大规模数据训练后提高泛化性,适应多种模态的图像。
- SAM的结构灵活,允许根据任务需求进行调整。
SAM模型的不足和未来展望:
- 研究如何降低模型复杂度和训练成本。
- 目前,点提示的精确度远不及框提示,提高点提示的精确度是一个研究方向。
- SAM模型弱监督和半监督学习的潜力,可以为医学图像中标注困难和昂贵的问题提供了有效解决方案。
- 多模态数据融合。
- 实际临床需求。