【分割一切模型(SAM)在医学图像分割中的应用】
本篇文章是个人看文献的一些总结和个人的想法,都是个人看过文章之后的理解,不保证一定是对的,如果我的理解有错,欢迎纠正。
(2024.5.22)
医学图像分割是计算机辅助医疗流程中的关键步骤。传统的深度神经网络在这一领域表现出色,但存在泛化能力差和数据标注成本高的问题。大规模预训练基础模型(LPFMs)的出现提供了新的解决方案。LPFMs是指利用大量的数据训练的一个通用模型,这种模型学习到了更基础、更普适的表示能力并能够转移到不同的领域,因此不同的下游任务能够以这样的通用模型为基础轻松地进行微调。
SAM是基于Vision Transformer (ViT)的LPFMs,利用了大规模数据集SA-1B进行训练。模型包含图像编码器、提示编码器和掩码解码器三个核心模块。
SAM是提示驱动的分割模型,通过点提示、框提示和文本提示来引导模型的注意力,提高分割效果。
不做任何调整,直接将用SAM模型用于医学数据集的表现:
其中大部分的效果都不如当前数据集的最优模型,个别优于最佳模型的有:
皮肤癌肿瘤(TCGA数据集):使用20个点提示,效果好于SOTA。
脑(ATLAS和私人数据集):使用框提示,效果好于SOTA。
乳腺肿瘤(BUSI数据集):验证了ViT-L版本的SAM具有最佳的分割性能。
手术器械(EndoVis数据集):使用点提示效果劣于SOTA,使用框提示效果好于SOTA。
在大多数情况下,未经过微调的SAM直接应用在医学数据集上的表现无法与当前最优方法相比。具体来说:
点提示和边界框提示:在某些数据集上可以提升效果,但整体表现仍不及SOTA。
未经微调的SAM:原始SAM是通过大量自然图像训练出来的,直接应用在医学数据集上的效果欠佳,特别是在医学图像边缘模糊、结构复杂的情况下。
基于医学数据集的SAM微调可以细分为两种:
- 针对特定医学数据集的微调,以提升SAM针对某一种医学图像的分割:例如,Skin-SAM在皮肤癌分割任务中微调SAM模型,保持预训练的ViT-B版本的图像编码器不变,用皮肤数据集微调其他部分。这种方法的针对性较强,缺点是无法有效适应新的图片模态,网络泛化能力弱,没有充分利用SAM这一分割大模型的强大能力。
- 构建包含多种图像模态的大规模医疗数据集进行微调:MedSAM通过使用包含11种模式的综合医学图像数据集来微调SAM,涵盖超过100万的图像掩码对。这种方法对于数据集中图片模态种类的覆盖率、图片数量以及图片质量的要求更高,但可以经过一次微调适应更多的医学图像种类。
SAM对3D医学图像的适应性:
SAM原本用于2D数据集, 然而在医学图像分割领域中,3D数据集因为蕴含着丰富的信息,其分割任务是非常重要的。直接将3D数据集处理为2D切片的形式再利用SAM行分割,将会丢失很多切片之间的空间三维信息。因此如何对 SAM 进行调整,让其能够被合理地应用到 3D 数据集上并充分地发挥作用是很多工作所关注的。
(1)2D预训练模型向3D的迁移:3DSAM-adapter通过在SAM的图像编码器中添加适应器模块,并在提示编码器中采取跨模态注意力融合两种embeddings,最后在掩码编码器中加入多层聚合机制,以更好地利用原始图像的信息。
(2)在图像编码器的transformer模块中添加3D适应部分:结合3D卷积层进行特征提取,多尺度特征融合方法保留空间信息,在3D医学图像分割任务中表现优越。
(3)还可以基于 3D 数据集的大模型重新训练:Wang等人提出了SAM-Med3D模型,在大规模 3D 数据集上从头开始训练。该数据集包括 2.1 万张的医学图像和 13.1 万个掩码,囊括了 247 个图像类别。通过在网络中采用 3D 位置编码,直接从数据集中整合 3D 空间信息,在 3D 医学图像分割上表现出良好的性能。
(4)3D数据集使用SAM的方法拓展:MedLSAM先基于3D医学图像的定位模型,利用自监督任务统一解剖映射(Unified Anatomical Mapping, UAM)和多尺度相似性(Multi-ScaleSimilarity, MSS)在CT图像中进行目标器官或结构的3D定位,获得3D提示框。然后使用3D提示框作为特征输入到SAM中指导分割。
提示工程的优化:
- 提示的自动化生成:将原本需要手动输入点、边界框或掩码提示的SAM变成了一种全自动提示的方式,消除了手动提示的必要性。
- 提示策略的优化:通过增强的点提示提供更多用户意图的信息;通过考虑额外提示、提示位置和最佳提示策略等因素来进行提示选择。
SAM与半监督学习、图像标注方法的结合:
在医学图像分割领域,由于标签数据的获取困难和昂贵,半监督学习成为一种有效的方法。半监督学习利用少量有标签图像和大量无标签图像进行训练,以提高分割效果。SAM模型作为一种强大的分割模型,可以与半监督学习相结合,进一步提升分割性能。
SemiSAM不仅提供了定位信息,也为SAM生成输入提示,之后利用SAM生成的伪标签作为额外的监督,来辅助半监督框架的学习。
ASLseg的半监督框架,可以有效地使SAM适应半监督学习,并结合肝肿瘤的特异性和一般知识进行分割。
利用SAM辅助医学数据标注可以节省大量的标注时间。SAMMed就是一种医学图像的注释工具。
SQA-SAM利用SAM来进行医学图像分割的质量评估,并提高医学图像分割的准确性。
SAM目前的挑战:
- 跨数据集和跨模态的分割能力不足
- 多模态和多尺度图像信息的融合能力有限
- 对标签的依赖性和提示敏感性
- 多目标和边界模糊区域的分割表现欠佳
SAM未来的展望:
- 大规模数据集的构建
- 多模态多尺度信息的处理
- 与半监督学习、图像标注方法的结合
- 拓展临床应用