SAM-CP的个人理解

【SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation】

本篇文章是个人看文献的一些总结和个人的想法,都是个人看过文章之后的理解,不保证一定是对的,如果我的理解有错,欢迎纠正。

(2024.7.23)

SAM两个研究方向的不足:一种依赖于独立的模型生成提议,SAM仅用于细化这削弱了SAM作为基础模型的功能;另一种为SAM生成的每个区域块分配语义标签,但在许多情况下,SAM可能会将一个实例过度分割为子区域块,使得确定哪些区域块属于同一实例变得困难

文章提出SAM-CP,SAM-CP在SAM生成的区域块之外建立了两种类型的提示。它通过两种类型的提示(Type-I和Type-II)来增强SAM的功能Type-I提示判断SAM区域块是否与文本标签对齐Type-II提示判断两个具有相同文本标签的SAM区域块是否属于同一实例

直接实现SAM-CP将涉及对每个区域块执行Type-I提示,然后对每对区域块执行Type-II提示,这导致计算复杂度为O(N^2),效率不高。为了加速过程,设计了一个等效但更高效的机制,称为统一亲和性框架。该框架初始化一组查询,代表潜在的单元(如语义区域和实例),并将所有SAM区域块设为键。通过亲和性传播逐步将具有高亲和性分数的单元合并为更大的单元

区域块编码器(Patch Encoder):视觉特征提取,使用常规的backbone网络配合RoIAlign操作符,从每个区域块中提取基本特征向量MaskRoI操作中设计了MaskRoI操作符以通过屏蔽背景区域来提取更精确的视觉特征。特征传播中特征通过多层感知器(MLP)并输入到多头自注意力层,以获得每个区域块的特征向量

统一亲和性解码器(Unified Affinity Decoder):为语义和实例分割分别建立两种类型的查询。使用视觉-语言模型的语言分支将文本标签转换为查询向量亲和性(Affinity)为一个矩阵,表示区域块属于查询的概率通过多头交叉注意力模块更新查询向量亲和性细化(Affinity Refinement),使用查询向量和区域块特征之间的余弦相似度来更新亲和性矩阵查询增强(Query Enhancement)增强查询特征,通过融合查询的高亲和区域的RoI特征。

语义级监督:在语义查询上构建视觉-语言分类器,使用线性归一化后的查询向量和类别特征来确定类别得分,并计算分类损失

实例级监督:在亲和性传播结束时,每个实例查询对应一个二进制分割掩码。通过计算预测和真实实例之间的IoP(交并比)值来建立匹配矩阵,并据此计算真实的亲和性矩阵

实验部分:

SAM-CP在COCO-Panoptic和ADE20K数据集上进行训练,并在这些数据集以及Cityscapes数据集上进行封闭领域和开放词汇分割的评估。

对于实例分割,使用AP(平均精度)指标;对于语义分割,使用mIoU(平均交并比);对于全景分割,使用PQ(全景质量)指标。

在COCO到ADE20K和ADE20K到COCO的跨数据集验证中,SAM-CP在PQ、SQ、RQ(全景分割质量的子指标)以及AP方面超越了之前的最佳方法FCCLIP。在COCO-Panoptic数据集上,SAM-CP使用ResNet-50作为backbone时,达到了48.6%的PQ、41.7%的AP和55.6%的mIoU。使用更强大的Swin-L作为backbone时,性能进一步提升。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇