【Biomedical SAM 2: Segment Anything in Biomedical Images and Videos】
本篇文章是个人看文献的一些总结和个人的想法,都是个人看过文章之后的理解,不保证一定是对的,如果我的理解有错,欢迎纠正。
(2024.8.6)
医学图像分割对于诊断和分析疾病至关重要,它能帮助识别和测量生物结构。尽管医学成像技术取得了进展,但分割任务由于医学图像的复杂性和准确注释所需的大量手动工作而仍然是一个挑战,尤其是在处理医学数据时的领域差异和无法将分割区域与有意义的语义类别关联起来。SAM 2是SAM的扩展,增加了视频输入处理能力,适用于需要理解多帧空间连续性的任务。
经过实验证明SAM 2在医学环境中有局限性,因此文章开发了BioSAM 2,这是一种基于SAM 2优化的生物医学数据增强基础模型。
BioSAM 2参考了MedSAM的改进方法,即使用医学数据集微调SAM模型,训练的时候冻结提示编码器,更新图像编码器和掩码解码器部分。
实验部分:
医学图像方面: 评估数据集采用内窥镜数据集(来自MICCAI 2017 EndoVis Challenge的数据集)和显微镜数据集(来自NeurIPS 2022 Cell Segmentation Challenge的数据集)。使用Dice损失和交叉熵损失的无权重组合,采用AdamW优化器,初始学习率为1e-4,每个数据集训练200个周期。
对不同SAM 2变体进行了详尽的分析,发现随着点击次数的增加,性能有明显提升。与其他为医学图像分割特别设计的微调模型(例如nnU-Net)相比,SAM 2的零样本性能较差,说明了在医学图像领域对SAM 2进行微调的必要性。
医学视频方面:
数据集采用EndoVis 2018和EchoNet-Dynamic。
SAM 2在医学视频分割中的主要进步是其支持视频内部对象的跟踪能力。通过增加点击次数,可以显著提高结果的准确性。 通过增加交互帧的数量来解决SAM 2视频分割中的问题,即使在交互帧中重复标记相同的对象,也能提高后续的分割结果。