SAMRS数据集的个人理解 – -TobyKSKGD的个人博客-

【SAMRS: Scaling-up Remote Sensing Segmentation Dataset with Segment Anything Model】

本篇文章是个人看文献的一些总结和个人的想法，都是个人看过文章之后的理解，不保证一定是对的，如果我的理解有错，欢迎纠正。

（2023.5.3）

遥感数据集面临的问题

SAM模型向人们展示了机器学习中数据的重要性。

在遥感（RS）图像中，标注数据困难并且有高成本，目前有许多有价值的RS数据集仍然未被标注，特别是在像素级别的标注。

SAM在RS图像中的分割效果：

文章利用SAM和现有的RS目标检测数据集，开发了一个高效的流程生成大规模RS的分割数据集，称为SAMRS。

SAMRS数据集包含105,090张图像和1,668,241个实例，规模远超现有高分辨率RS分割数据集。数据集提供了对象类别、位置和实例信息，可用于语义分割、实例分割和目标检测。

可以通过向SAM提供关于目标对象的一些提示信息，就能让SAM在图像中找到并分割出这些对象。

六种基本提示方式：

中心点（CP）

水平边框（H-Box）

最小外接水平矩形（RH-Box）

水平边框的掩码提示（H-Box-M）

旋转边框的掩码提示（R-Box-M）

最小外接水平矩形的掩码提示（RH-Box-M）

由于遥感图像中的目标可能具有任意方向，因此除了通常的水平边框（H-Box）外，还考虑了定向边框或旋转边框（R-Box）作为提示。但是，SAM不直接支持R-Box提示，因此使用R-Box的最小外接水平矩形（RH-Box）来代替。

文章使用了四个公共遥感目标检测数据集，分别是HRSC2016、DOTA-V2.0、DIOR和 FAIR1M-2.0，通过转换这四个数据集去构建了SAMRS数据集。

HRSC2016：主要用于船只检测，仅包含一个类别。

在转换过程中，根据实验结果选择最合适的提示类型用于SAM进行标注。

DOTA-V2.0：一个大规模的遥感目标检测数据集，包含多种目标类别。

转换前，通常将DOTA数据集中的图像裁剪为1024 × 1024像素的块。直接采用H-Box提示进行转换，生成相应的分割标注。

DIOR：另一个大规模遥感目标检测数据集，具有丰富的目标类别。

采用与DOTA相同的H-Box提示进行转换。

FAIR1M-2.0：一个细粒度目标识别数据集，包含高分辨率的遥感图像。

由于该数据集仅包含R-Box标注，因此使用对应的RH-Box提示进行转换。

SAMRS中来自各个数据集中的类别示例：

SAMRS中各个类别的数量统计：

SAMRS中各个子集的掩码大小统计：

为了研究SAMRS对分割预训练(SEP)的影响，文章采用了多种分割框架进行实验。

分割解码器中，使用经典的UNet和常用的UperNet分割框架。

骨干网络（Backbone Network）中包括分层的视觉Transformer（如Swin、ViTAEv2、InternImage）和非分层网络（如ViT、ViT-Adapter、ViT-RVSA）。

不同方法使用SAMRS训练的结果：