data数据集说明.md 12 KB

当前 data 目录数据集说明

一、文档目的

这份文档只根据当前仓库 data 目录中的实际内容编写,不引用外部数据平台说明,也不假设尚未下载的数据存在。目标是回答下面几个实际问题:

  1. 当前 data 下面到底有哪些超声数据集。
  2. 这些数据集从目录结构上看,更像分类、分割,还是混合用途。
  3. 哪些数据集更适合直接接入当前 2D 半监督超声分割框架。
  4. 后续代码实现时,数据加载器应优先兼容哪些目录结构。

本文档与以下文档直接相关:

  1. 半监督超声分割方法_易读版
  2. X*SSL_Net*项目落地与代码改造方案
  3. 训练框架设计说明

二、当前 data 目录下实际存在的数据集

当前 data 目录下可以直接看到以下数据集根目录:

  1. BUS-BRA
  2. BUSI
  3. BUS_UC
  4. BUS-UCLM
  5. CCAUI
  6. DDTI
  7. OTU_2d
  8. TG3K
  9. TN3K 10.

这些数据集中,大多数从目录命名和文件分布上看,已经包含图像与对应标注,适合继续整理成 2D 医学图像分割任务。


三、当前数据集的目录级概览

下面的统计只基于当前仓库里已经存在的文件。

数据集 目录数 文件数 图像文件数 其他说明
BUS-BRA 10 5627 5625 csv 文件,目录里同时存在 ImagesMasks 和按分级划分的子目录
BUS-UCLM 2 1366 1366 目录非常规整,直接有 imagesmasks
BUSI 4 1578 1578 benignmalignantnormal 分目录
BUS_UC 11 3244 3244 BenignMalignantAll 等层级目录
CCAUI 3 2200 2200 US imagesExpert mask images 命名
DDTI 0 870 480 根目录文件平铺,结构不规整,需进一步解析命名关系
OTU_2d 2 5880 5876 imagesannotations,很像标准分割目录
TG3K 2 7171 7170 thyroid-imagethyroid-mask
TN3K 4 6994 6986 trainval-imagetrainval-masktest-imagetest-mask,并有少量 csv

从工程角度看,这些数据集已经足够支撑当前项目进入真实数据接入阶段,不再需要只靠随机占位数据做训练框架验证。


四、逐个数据集的可用性判断

4.1 BUSI

目录结构:

  1. data/BUSI/Dataset_BUSI_with_GT/benign
  2. data/BUSI/Dataset_BUSI_with_GT/malignant
  3. data/BUSI/Dataset_BUSI_with_GT/normal

从文件命名上看,可以观察到:

  1. 原图文件如 benign (100).png
  2. 掩膜文件如 benign (100)_mask.png
  3. 某些样本可能有多个掩膜,例如 _mask_1_mask_2

这说明:

  1. BUSI 适合做乳腺超声分割。
  2. 数据同时带有病理类别语义,即 benignmalignantnormal
  3. 对当前项目来说,最直接的使用方式是先做二值分割。
  4. 若一个样本对应多个掩膜,需要明确是取并集、单独保留,还是只保留主掩膜。

适用性判断:

  1. 很适合作为当前项目第一批主实验数据。
  2. 很适合半监督设置,因为目录清晰、图像量适中、已有标注。
  3. 边界分支也适合在该数据集上验证。

4.2 BUS-BRA

当前看到两套明显不同的结构:

  1. data/BUS-BRA/BUSBRA/BUSBRA/Images
  2. data/BUS-BRA/BUSBRA/BUSBRA/Masks
  3. data/BUS-BRA/BUSBRA/BUSBRA/bus_data.csv
  4. data/BUS-BRA/busbra_birads/busbra_birads/2
  5. data/BUS-BRA/busbra_birads/busbra_birads/3
  6. data/BUS-BRA/busbra_birads/busbra_birads/4
  7. data/BUS-BRA/busbra_birads/busbra_birads/5

从这个结构判断:

  1. ImagesMasks 这一套更适合直接做分割。
  2. busbra_birads 这一套更像按 BI-RADS 分级组织的图像数据。
  3. csv 很可能包含病例、分级或元数据映射关系。

适用性判断:

  1. 这个数据集很有价值,但第一版接入时建议优先使用 Images + Masks 这套结构。
  2. busbra_birads 目录可以后续作为分类属性、病例级分层或弱监督信息再利用。
  3. 需要专门写一个解析器,而不要简单套用通用 image-mask 目录规则。

4.3 BUS_UC

当前看到的主要结构:

  1. data/BUS_UC/BUS_UC/BUS_UC/Benign
  2. data/BUS_UC/BUS_UC/BUS_UC/Malignant
  3. data/BUS_UC/BUS_UC/BUS_UC/All

脚本扫描结果还显示有类似:

  1. Benign/images
  2. Benign/masks
  3. Malignant/masks

这说明:

  1. 这也是一个乳腺超声相关数据集。
  2. 目录层级比 BUSI 更深,可能需要特别处理路径。
  3. 从工程上看,很可能依然可以整理成“图像路径 + 掩膜路径”的标准表。

适用性判断:

  1. 适合作为乳腺方向的第二批联合实验数据。
  2. 第一版也可接入,但优先级略低于 BUSIBUS-UCLM,因为目录结构更绕。

4.4 BUS-UCLM

目录结构:

  1. data/BUS-UCLM/images
  2. data/BUS-UCLM/masks

这个结构是当前所有数据里最干净的一类。

适用性判断:

  1. 极适合作为第一版数据加载器接入样板。
  2. 很适合先用它验证“真实数据训练链路”。
  3. 也很适合作为半监督设置中的一个单源乳腺超声实验集。

如果接下来要快速从随机数据过渡到真实数据,我最推荐优先从这个数据集开始。


4.5 CCAUI

目录结构:

  1. data/CCAUI/Common Carotid Artery Ultrasound Images/US images
  2. data/CCAUI/Common Carotid Artery Ultrasound Images/Expert mask images

这说明:

  1. 这是一个颈总动脉超声图像数据集。
  2. 标注命名里直接出现 Expert mask images,说明标注来自专家掩膜。

适用性判断:

  1. 很适合做二值分割。
  2. 目标类型与乳腺、甲状腺不同,更适合后续做跨器官泛化实验。
  3. 第一版可以暂时不优先接,但很适合后面做外部验证集或跨域测试。

4.6 DDTI

当前看到:

  1. data/DDTI 下面没有进一步分层子目录
  2. 文件数 870
  3. 图像文件数 480

这说明:

  1. 一部分文件可能不是图像,而是其他格式标注或辅助文件。
  2. 文件是平铺结构,不像 images/masks 这种明显配对目录。

适用性判断:

  1. 这个数据集值得保留,因为它通常与甲状腺超声任务有关。
  2. 但在没有进一步解析命名规则之前,不建议作为第一批接入数据。
  3. 后续应单独检查 DDTI 的文件名配对方式,再决定数据加载器怎么兼容。

4.7 OTU_2d

目录结构:

  1. data/OTU_2d/images
  2. data/OTU_2d/annotations

从结构上看,这是一个很标准的图像-标注分离格式。

适用性判断:

  1. 适合快速接入。
  2. 很适合作为“通用 image/annotation 格式”的测试对象。
  3. 但从目录命名不能直接判断其具体器官任务,因此在论文主实验里使用前,需要再明确任务定义。

4.8 TG3K

目录结构:

  1. data/TG3K/thyroid-image
  2. data/TG3K/thyroid-mask

这说明:

  1. 这是一个甲状腺超声图像分割数据集。
  2. 目录结构非常适合当前任务。

适用性判断:

  1. 很适合作为甲状腺方向的第一批主实验数据。
  2. 很适合和 TN3K 联合使用。
  3. 对边界分支和结构感知解码器也很友好。

4.9 TN3K

目录结构:

  1. data/TN3K/trainval-image
  2. data/TN3K/trainval-mask
  3. data/TN3K/test-image
  4. data/TN3K/test-mask

并且目录下还有少量 csv 文件。

这说明:

  1. 它已经天然带有训练验证与测试划分思路。
  2. 是当前项目里最适合直接拿来构建正式实验流程的数据集之一。

适用性判断:

  1. 非常适合作为第一版正式甲状腺主实验数据。
  2. 很适合做标准的训练/验证/测试流程。
  3. 也适合拿来做有监督基线与半监督基线对比。

五、当前最适合优先接入的数据集

如果只从当前 data 的真实结构出发,不考虑外部信息,我建议优先级如下。

第一优先级:最适合快速接入并跑正式流程

  1. BUS-UCLM
  2. TG3K
  3. TN3K

原因:

  1. 目录清晰。
  2. 图像与掩膜关系直观。
  3. 很适合作为第一版正式数据加载器的适配目标。

第二优先级:适合扩展为更强的主实验

  1. BUSI
  2. BUS-BRA
  3. BUS_UC

原因:

  1. 都是乳腺超声方向,有利于同任务多源联合实验。
  2. 但目录和命名关系比第一优先级更复杂。
  3. 更适合在第一版加载器稳定后再扩展接入。

第三优先级:适合作为补充或外部测试

  1. CCAUI
  2. DDTI
  3. OTU_2d

原因:

  1. 任务类型更杂,或目录需要进一步解析。
  2. 更适合作为后续扩展实验,而不是当前第一批主流程数据。

六、对当前项目最直接的工程建议

基于当前 data 目录,下一步数据加载器不要一上来追求“一套代码兼容所有数据”,而应该先分三类:

6.1 标准成对目录型

适用数据:

  1. BUS-UCLM
  2. TG3K
  3. OTU_2d

特点:

  1. 一套目录放图像
  2. 一套目录放掩膜

适合先做一个通用 paired-folder dataset

6.2 预划分训练测试型

适用数据:

  1. TN3K

特点:

  1. 已经分出 trainvaltest
  2. 更适合按现有划分直接接入

6.3 分类目录 + 掩膜命名匹配型

适用数据:

  1. BUSI
  2. BUS-BRA
  3. BUS_UC

特点:

  1. 按病理类别或分级组织
  2. 图像与掩膜通过文件名对应
  3. 可能一个图像对应多个掩膜

这类数据建议单独写解析器,不要强塞进最简单的数据加载器里。


七、推荐的真实数据接入顺序

如果要尽快从当前训练骨架过渡到真实实验,我建议按这个顺序推进:

  1. 先接 BUS-UCLM
  2. 再接 TN3K
  3. 再接 TG3K
  4. 然后补 BUSI
  5. 最后再扩展 BUS-BRABUS_UC

这样做的好处是:

  1. 先用最规整的数据把真实训练链路跑通。
  2. 再用更复杂的数据逐步提高数据加载器兼容性。
  3. 避免一开始被多个特殊命名规则拖慢。

八、对论文与文档写作的影响

由于当前仓库里已经真实存在多套乳腺超声和甲状腺超声数据,这意味着:

  1. 论文主实验完全可以不再只停留在“方法设计”阶段。
  2. 可以明确规划单数据集实验和多数据集联合实验。
  3. 也可以自然设计跨数据集泛化测试。

比较适合当前项目的实验路线是:

  1. 单数据集验证:BUS-UCLMTN3K
  2. 同任务多源联合:BUSI + BUS-BRA + BUS_UC + BUS-UCLM
  3. 甲状腺方向联合:TG3K + TN3K
  4. 跨器官外测:CCAUI

九、结论

只看当前 data 目录,当前项目已经拥有一批可以直接支持 2D 超声图像分割的数据资源,而且其中至少有三类数据集已经足够规整,可以马上进入真实数据接入阶段:

  1. BUS-UCLM
  2. TN3K
  3. TG3K

如果目标是尽快把当前半监督分割骨架从“随机占位数据”推进到“真实数据训练”,最优先应做的是:

  1. BUS-UCLM 写第一版真实数据集加载器
  2. TN3K 写带现成划分的加载器
  3. 再逐步兼容 BUSIBUS-BRABUS_UC 这类更复杂目录

这比继续抽象讨论“未来可能有哪些数据集”更有价值,也更符合当前仓库实际状态。