SurgicalSAM的个人理解

【SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation】

本篇文章是个人看文献的一些总结和个人的想法,都是个人看过文章之后的理解,不保证一定是对的,如果我的理解有错,欢迎纠正。

(2023.12.21)

介绍了一种名为SurgicalSAM的新型端到端高效调优方法,用于改善SAM在手术器械分割任务中的泛化能力

将SAM应用于手术器械分割时,存在两个问题:1)自然物体与手术器械之间的领域差异导致SAM泛化性能不佳;2)SAM依赖于精确的点或框位置进行准确分割,这需要复杂的多阶段流程

为了解决这些问题,SurgicalSAM提出了一种轻量级的基于原型的类提示编码器直接从类原型生成提示嵌入无需显式的提示提高鲁棒性简化了流程。

SurgicalSAM由三个主要部分组成:图像编码器基于原型的类提示编码器掩码解码器

基于原型的类提示编码器(Prototype-based Class Prompt Encoder)

利用图像和类原型之间的相似性来创建提示嵌入

类原型银行B(prototype bank B)包含每个类别的代表性原型

相似性矩阵(Similarity Matrix)S通过计算图像嵌入与所有类别原型的点积来生成,用于激活图像中类特定的区域

类激活特征(Class-Activated Feature)使用相似性矩阵作为空间注意力激活所有类别的类特定区域

最后提示嵌入,包括密集提示嵌入稀疏提示嵌入,分别通过多层感知机(MLP)生成

为了提高类原型的区分性,使得模型能够更准确地识别和激活手术器械的类别,文章采用对比原型学习(Contrastive Prototype Learning)。通过对比学习,增强原型与正样本的相似性同时抑制与负样本的相似性,从而获得更具区分性的原型表示

在调优过程中,大型图像编码器被冻结只更新轻量级的基于原型的提示编码器和掩码解码器的参数

损失函数由两部分组成,用于分割的dice损失和用于原型学习的原型对比损失

实验部分:

使用EndoVis2018EndoVis2017数据集进行验证,这两个数据集提供了多个手术视频帧,涵盖了多种手术器械类别。

采用Challenge IoU、IoU和mean class IoU(mc IoU)三种分割指标进行评估。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇