HRSAM的个人理解

【HRSAM: Efficiently Segment Anything in High-Resolution Images】

本篇文章是个人看文献的一些总结和个人的想法,都是个人看过文章之后的理解,不保证一定是对的,如果我的理解有错,欢迎纠正。

(2024.7.2)

概述

SAM在处理高分辨率图像时表现较差,这是由于 SAM 实现的注意力机制具有二次空间复杂度以及全局注意力的长度外推问题

文章提出HRSAM结合Flash Attention和新提出的PSCWin注意力机制来解决这些问题。

直接缩放SAM的输入分辨率会带来内存效率低下缺乏对输入大小的可扩展性的问题,导致严重影响分割的性能和效率。

由于SAM的ViT使用的是全局注意力机制空间复杂度为二次,导致在处理高分辨率图像时,内存和计算开销极大

HRSAM在SAM框架中引入了Flash Attention。Flash Attention通过减少高带宽内存读写操作将注意力计算的空间复杂度从二次降低到线性大幅提高了内存效率

PSCWin注意力机制

平移窗口注意力(Plain window attention)将图像嵌入分割为不重叠的窗口分别进行自注意力计算,确保计算的复杂度降低

移位窗口注意力(shifted window attention):在平移窗口注意力的基础上,通过在窗口之间引入重叠部分来增强信息交互。移位窗口注意力将窗口分割进行平移和填充,通过填充保持窗口大小一致增强模型对长度变化的适应能力

循环扫描窗口注意力(cycle-scan window attention):结合状态空间模型(SSM)窗口注意力确保全局信息交换的高效性

SAM-ViT-Huge作为教师模型训练出具有全局或PSCWin注意力机制的ViT

2048 x 2048的图像上全局和PSCWin注意力机制在性能和速度上都超过的教师模型

HRSAM的编码器架构

(1)普通、移位和循环扫描窗口注意力块在编码器的四个阶段中均匀分布,确保不同阶段的信息处理和特征提取能力均衡

(2)编码器各个阶段的输出通过求和的方式进行融合整合多层次的特征信息

(3)融合后的特征通过一个卷积块进行进一步细化和优化确保特征嵌入的质量

(4)经过细化处理的特征作为最终的图像嵌入。

(5)最终将图像嵌入输入到 SAM 的解码器中

移位窗口循环扫描模块:

移位窗口可以分为原版移位窗口填充移位窗口,如图在2048 x 2048的图像处理时填充移位窗口的表现要更好

循环扫描窗口注意力结合了状态空间模型(SSM)窗口注意力通过循环扫描窗口确保全局信息交换的高效性。SSM 允许模型在保持低计算开销的情况下进行全局信息交换从而解决了全局注意力的长度外推问题

SSM:

HRSAM++

HRSAM++ 对 HRSAM 进一步改进,通过引入多尺度策略高效的注意力机制,实现了高分辨率图像分割的高精度和高效率

多尺度策略(Multi-scale Strategy):通过在不同分辨率下同时处理图像,提高了分割精度和并行处理效率。

多分辨率处理(Multi-resolution Processing):通过并行处理将图像分割成不同分辨率的版本,来捕捉不同尺度的细节信息。高分辨率用来捕捉细节和边缘信息低分辨率用来捕捉大尺度的全局信息

信息融合(Information Fusion)将分别来自高分辨率和低分辨率的图像特征进行融合与共享,使模型能够综合利用不同尺度的特征,从而提升分割的效果。

实验部分

利用mIoU来评估分割精度

利用FLOPs(Floating Point Operations)来评估计算复杂度

COCO、ADE20K、Cityscapes数据集中全面评估HRSAM和HRSAM++的性能。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇