【SAM Fails to Segment Anything? – SAM-Adapter: Adapting SAM in Underperformed Scenes: Camouflage, Shadow, Medical Image Segmentation, and More】
本篇文章是个人看文献的一些总结和个人的想法,都是个人看过文章之后的理解,不保证一定是对的,如果我的理解有错,欢迎纠正。
(2023.5.2)
SAM是一种通用的图像分割模型,因为训练数据不能涵盖整个语料库,并且工作场景可能会发生变化,在某些任务中,如阴影检测和伪装物体检测中表现不佳。
创新点:首次尝试将大型预训练图像分割模型SAM用于特定的下游任务,并提高其性能。
SAM-Adapter的目标是利用从SAM中学习到的知识。因此,选择SAM作为分割网络的骨干。SAM的图像编码器是一个ViT-H/16模型,在进行微调模型的时候冻结原本SAM预训练好的ViT层的参数。
SAM-Adapter对于SAM的微调部分主要为:图像编码器中新添加的adaptor模块和SAM的掩码解码器模块。 新添加的adaptor模块主要由两个全连接层(MLP)组成。
Adaptor中的MLP,还有MLP中的激活函数和掩码解码器组成了所有要根据特定数据集微调的参数。
文章使用此微调策略在伪装物体检测、阴影检测和医学影像分割三个任务中进行实验。
在伪装物体检测的任务中使用了COD10K、CHAMELEON和CAMO数据集。
COD10K是伪装物体检测中最大的数据集,包含3,040个训练样本和2,026个测试样本。
CHAMELEON包含从互联网收集的76张测试图像。
CAMO数据集包含1250张图像(1000张用于训练集,250张用于测试集)。
阴影检测使用ISTD数据集,数据集中包含1,330张训练图像和540张测试图像。
医学影像分割任务中选择了息肉分割数据集,kvasir-SEG数据集。
伪装检测中SAM-Adapter在三个数据集中的表现如下:
表中可以看到,SAM模型的表现远远低于其它比较的模型,原因就是SAM的训练集自然图像与复杂图像的差距较大。但是通过本文的微调策略,SAM-Adapter模型在CAMO数据集和COD10K数据集中所有指标都超过了SOTA模型,CHAMELEON数据集中的表现效果综合来说也比较好。
阴影检测中SAM-Adapter模型的表现如下:
BER指标越小越好,可以看到经过微调的SAM,SAM-Adapter模型的性能最好。并且也可以发现SAM-Adapter模型性能远好于没有经过微调的SAM。
医疗影像分割(息肉影像分割为例)中SAM-Adapter模型的表现如下:
从上表中可以看到,经过微调的SAM-Adapter模型的表现是最好的。
未来工作:可以参考SAM-Adapter模型的微调策略,以解决更具挑战性的图像分割任务,并将其应用范围扩大到其他领域。
并且期望针对具体任务开发更专门的设计。