本文具体描述LIDC-IDRI数据集还有数据集的处理案例。
本篇文章是个人看文献的一些总结和个人的想法,都是个人看过文章之后的理解,不保证一定是对的,如果我的理解有错,欢迎纠正。
参考文章:
[1]The Lung Image Database Consortium (LIDC) and Image Database Resource Initiative (IDRI): A Completed Reference Database of Lung Nodules on CT Scans
[2]UNet++: Redesigning Skip Connections to Exploit Multiscale Features in Image Segmentation
The Lung Image Database Consortium (LIDC) and Image Database Resource Initiative (IDRI): A Completed Reference Database of Lung Nodules on CT Scans
LIDC/IDRI数据集是由美国国家癌症研究所(NCI)发起,国家卫生研究院基金会(FNIH)和食品药品监督管理局(FDA)参与的公私合作项目。
LIDC/IDRI 数据集包括原始的 DICOM 图像文件和与每个病例相关的XML文件。每个病例包含一个临床胸部CT扫描图像和一个记录了四位有经验的胸部放射科医生两阶段图像注释过程结果的XML文件。
注释过程:
- 初始盲读阶段:每位放射科医生独立审阅每个CT扫描图像,标记属于三类之一的病变(“结节>3mm”、“结节≤3mm”和“非结节≤3mm”)。
- 后续非盲读阶段:每位放射科医生独立审阅自己和其他三位医生的匿名标记,形成最终意见。
最终数据集包含7371个至少被一位放射科医生标记为“结节”的病变,其中2669个被标记为“结节>3mm”,且有928个(34.7%)被所有四位医生一致标记。
数据库不仅提供了图像,还包括病变的详细注释和特征评分,增加了其在不同CAD任务中的应用价值。
使用LIDC-IDRI数据集案例
UNet++: Redesigning Skip Connections to Exploit Multiscale Features in Image Segmentation
医学影像分割模型U-Net和全卷积网络(FCN)的变体有着两个局限性:(1)它们的最优深度是未知的,需要大量的架构搜索或对不同深度的模型进行低效的集成;(2)它们的跳过连接(skip connection)施加了不必要的限制性融合方案,强制聚合仅在编码器和解码器子网络的相同尺度特征映射上。文章提出UNet++,(1)通过不同深度的UNet++的有效集成来缓解未知的网络深度,这些UNet++部分共享编码器并使用深度监督同时共同学习;(2)重新设计跳跃式连接,聚合译码子网络中不同语义尺度的特征,形成高度灵活的特征融合方案;(3)设计一种剪枝方案,提高UNet++的推理速度。
UNet++利用不同深度的U-Net集成,部分共享编码器,并通过深度监督同时共同学习,以缓解未知网络深度问题。重新设计跳跃连接,允许在解码器子网络中融合不同语义尺度的特征,实现高度灵活的特征融合方案。设计了一种剪枝方案,以加快UNet++的推理速度。
本篇文章对于LIDC-IDRI数据集的处理方式:
LIDC-IDRI数据集一共有1018例病人数据,数据集中的每一个病例都是一个3D CT扫描,并且结节已经被标记为体积二进制掩膜。
文章将数据集分为训练集(510例)、验证集(100例)、测试集(408例)。
文章对数据集进行了重采样,以1-1-1mm的间距重新采样了体积数据,然后围绕每个结节提取了一个64 × 64 × 64的裁剪区域(64 x 64 x 64的裁剪区域提供了足够的上下文信息来判断结节的特征,可以减少模型需要处理的数据量)。这些3D裁剪区域被用于模型的培训和评估。