关于SAM全面综述的个人理解

【A Comprehensive Survey on Segment Anything Model for Vision and Beyond】

本篇文章是个人看文献的一些总结和个人的想法,都是个人看过文章之后的理解,不保证一定是对的,如果我的理解有错,欢迎纠正。

(2023.5.19)


对SAM模型在视觉和其他领域应用的全面综述。

背景介绍

人工智能发展背景:从专用人工智能到通用人工智能。

基础模型的兴起:NLP中的大语言模型BERT、GPT-3以及视觉领域的ViT、CLIP等模型。

SAM的出现:旨在为图像分割任务提供通用的基础模型,通过提示学习实现强大的零样本迁移能力。

术语介绍

图像分割:图像分割是一项基本的计算机视觉任务,通过将每个像素分配给一个类或对象,将数字图像分成多个部分。传统的分割包括三个主要任务:语义分割、实例分割和全局分割。

语义分割:为每个像素分配一个预定义的语义类标签。

实例分割:进一步分离了同一类的实例。

交互式分割:利用用户交互引导的信息进行分割。

基础模型:基于大规模数据训练的模型,能适应多种下游任务。

SAM模型的介绍

引入可提示的分割任务,使模型能够在新数据分布和任务上进行零样本迁移

模型框架可分为:图像编码器、提示编码器和掩码解码器。

在数据集方面构建了一个包含10亿个掩码和1100万张图像的最大分割数据集(SA-1B)。

介绍了与SAM模型同时期的图像分割模型:OneFormer、SegGPT、SEEM

SAM模型在图像处理中的三个应用场景以及相关论文

软件场景中的应用

软件场景需要对图像编辑和修复进行操作,例如移除对象填充对象替换对象

Inpaint Anything

Inpaint Anything (IA) 通过结合SAM、最先进的图像绘制(Stable Diffusion)和AI生成内容(AIGC)模型,通过文本提示用新生成的对象填充选定的对象。

Edit Everything

类似思路的模型还有Edit Everything模型。

Any-to-Any Style Transfer

还有类似的图像任意风格转换模型Any-to-Any Style Transfer

真实场景的应用

SAM 具有协助处理许多真实世界场景的能力,例如真实世界的物体检测物体计数以及移动物体检测场景。

SAM在像自然图像这样的常见场景中,它具有优秀的泛化能力。而在低对比度的场景中,它的效果较差,而且在复杂场景中需要强大的先验知识。

Segment anything is not always perfect: An investigation of sam on different real-world applications

评估了SAM在多种现实世界分割场景中的性能,例如自然图像、农业、制造业、遥感和医疗场景。本文发现,SAM在自然图像等常见场景下有很好的泛化效果,而在低对比度场景下效果较差,在复杂场景下需要很强的先验知识。

Application of segment anything model for civil infrastructure defect assessment

利用 SAM 来检测混凝土结构中的裂缝,并将其性能与Baseline模型U-Net进行比较

结果显示,SAM 在检测纵向裂缝方面表现优于 UNet,因为这些裂缝更可能在正常场景中找到类似的训练图像。而在不常见的场景,即剥落裂缝方面,SAM 的表现不如 U-Net

Deep learning universal crater detection using segment anything model (sam)

提出了一种使用 SAM 对不熟悉对象进行零样本泛化的通用陨石坑检测方案

处理流程使用 SAM 来分割输入图像,对数据类型和分辨率没有限制。然后,使用圆形-椭圆形指数来过滤不是圆形-椭圆形的分割掩码。最后,使用一个后处理过滤器来去除重复的、人为的和假阳性的部分。这个流程在当前领域显示出其作为通用工具的巨大潜力

复杂场景中的应用

SAM 是否能解决复杂场景(如低对比度场景)中的分割问题,也是一个有意义的问题。

Sam struggles in concealed scenes–empirical study on ”segment anything”和Can sam segment anything? when sam meets camouflaged object detection

在三种场景,即伪装动物、工业缺陷和医学病变中,定量地将其与尖端模型进行比较在三个伪装物体分割(COS)数据集上进行实验,即拥有 250 个样本的 CAMO,拥有 2026 个样本的COD10K,以及拥有4121个样本的NC4K。并将其与基于Transformer的模型 CamoFormer-P/S 和HitNet进行比较。结果表明,SAM 在隐蔽场景中的性能不足,并指出,潜在的解决方案可能依赖于在特定领域的先验知识的支持。另一篇论文中也可以得出同样的结论,作者在上述同样的三个数据集上,将SAM与22个最先进的方法在伪装物体检测上进行比较

Segment Any Anomaly + (SAA+)

该模型用于零样本异常分割利用混合提示规范化来提高现代基础模型的适应性,从而无需领域特定的微调就能进行更精确的异常分割。

Weakly-supervised concealed object segmentation with sam-based pseudo labeling and multi-scale feature grouping

WSSAM利用 SAM 进行弱监督隐蔽物体分割解决了使用稀疏注释数据分割与周围环境融为一体的物体的挑战

其它应用:视觉及其它

医疗图像

医疗图像分割的目的是展示相应组织的解剖或病理结构,可以用于计算机辅助诊断和智能临床手术。 下图是医疗图像 SAM 概览,包括了SAM在计算机断层扫描(CT)图像、磁共振成像(MRI)图像、结肠镜检查图像、多格式图像、H&E 染色组织切片图像等不同类型图像中的应用。

视频

在计算机视觉领域,视频目标跟踪(VOT)和视频分割被认为是至关重要且不可或缺的任务

Track Anything Model, TAM

TAM高效地在视频中实现了出色的交互式跟踪和分割

SAMTrack

SAMTrack 是一种视频分割框架,可通过交互和自动的方法实现目标跟踪和分割

SAM-guided refinement module, SEEM

SEEM可以作为SAM的一个轻量级优化模块,用于提升现有方法的性能。

视觉之外

SA3D

SA3D可以用于3D重建。利用3D掩码网格,可以确定物体在3D中的占用空间,并以各种方式重建

ORNeRF

提出了一种新的对象移除设计 ORNeRF,它使用单个视图上的点或文本 prompt 从 3D 场景中移除对象。通过使用点投影策略将用户注释快速传播给所有视图,该方法使用比以往工作更少的时间实现了更好的性能。

非欧式域

SNA 方法引入了一个专门的可精简图卷积层。该层可以根据输入的特征维度进行通道的动态激活或停用,来为不同任务处理不同特征维度。

Instruct2Act

在感知部分,预定义的 API 用于访问多个基础模型。SAM准确定位候选对象,CLIP对它们进行分类。该框架利用基础模型的专业知识和机器人能力将复杂的高级指令转换为精确的策略代码。

SAMText

将SAM应用于视频文本定位,SAMText是一种为视频文本定位任务生成掩码注释的可扩展高效解决方案。通过将 SAM 模型应用于边界框注释,它可以为大规模视频文本数据集生成掩码注释。

Caption Anything(CAT)

将SAM应用于图像字幕中,Caption Anything(CAT)是一种用于可控图像字幕的方法。CAT 的框架将多模态控制引入图像字幕,呈现符合人类意图的各种视觉焦点和语言风格。

AV-SAM

SAM在视听方面也有涉及,AV-SAM的视听定位和分割方法用于学习可以对齐音频和视觉信息的跨模态表示。AV-SAM利用预训练音频编码器和图像编码器中跨音频和视觉特征的像素级视听融合来聚合跨模态表示。然后将聚合的跨模态特征输入prompt编码器和掩码解码器,生成最终的视听分割掩码。

Caption anything: Interactive image description with diverse multimodal controls

将SAM应用于多模态视觉和开放词汇交互分割,旨在使用仅文本输入的CLIP策略来完全取代手动点(manual point)。这种方法提供来自文本输入的像素级结果,可以很容易地转换为SAM模型的点prompt

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇