这份文档只根据当前仓库 data 目录中的实际内容编写,不引用外部数据平台说明,也不假设尚未下载的数据存在。目标是回答下面几个实际问题:
data 下面到底有哪些超声数据集。2D 半监督超声分割框架。本文档与以下文档直接相关:
当前 data 目录下可以直接看到以下数据集根目录:
BUS-BRABUSIBUS_UCBUS-UCLMCCAUIDDTIOTU_2dTG3KTN3K
10.这些数据集中,大多数从目录命名和文件分布上看,已经包含图像与对应标注,适合继续整理成 2D 医学图像分割任务。
下面的统计只基于当前仓库里已经存在的文件。
| 数据集 | 目录数 | 文件数 | 图像文件数 | 其他说明 |
|---|---|---|---|---|
BUS-BRA |
10 | 5627 | 5625 | 含 csv 文件,目录里同时存在 Images、Masks 和按分级划分的子目录 |
BUS-UCLM |
2 | 1366 | 1366 | 目录非常规整,直接有 images 和 masks |
BUSI |
4 | 1578 | 1578 | 按 benign、malignant、normal 分目录 |
BUS_UC |
11 | 3244 | 3244 | 含 Benign、Malignant、All 等层级目录 |
CCAUI |
3 | 2200 | 2200 | 有 US images 和 Expert mask images 命名 |
DDTI |
0 | 870 | 480 | 根目录文件平铺,结构不规整,需进一步解析命名关系 |
OTU_2d |
2 | 5880 | 5876 | 有 images 和 annotations,很像标准分割目录 |
TG3K |
2 | 7171 | 7170 | 有 thyroid-image 和 thyroid-mask |
TN3K |
4 | 6994 | 6986 | 有 trainval-image、trainval-mask、test-image、test-mask,并有少量 csv |
从工程角度看,这些数据集已经足够支撑当前项目进入真实数据接入阶段,不再需要只靠随机占位数据做训练框架验证。
目录结构:
data/BUSI/Dataset_BUSI_with_GT/benigndata/BUSI/Dataset_BUSI_with_GT/malignantdata/BUSI/Dataset_BUSI_with_GT/normal从文件命名上看,可以观察到:
benign (100).pngbenign (100)_mask.png_mask_1、_mask_2这说明:
BUSI 适合做乳腺超声分割。benign、malignant、normal。适用性判断:
当前看到两套明显不同的结构:
data/BUS-BRA/BUSBRA/BUSBRA/Imagesdata/BUS-BRA/BUSBRA/BUSBRA/Masksdata/BUS-BRA/BUSBRA/BUSBRA/bus_data.csvdata/BUS-BRA/busbra_birads/busbra_birads/2data/BUS-BRA/busbra_birads/busbra_birads/3data/BUS-BRA/busbra_birads/busbra_birads/4data/BUS-BRA/busbra_birads/busbra_birads/5从这个结构判断:
Images 和 Masks 这一套更适合直接做分割。busbra_birads 这一套更像按 BI-RADS 分级组织的图像数据。csv 很可能包含病例、分级或元数据映射关系。适用性判断:
Images + Masks 这套结构。busbra_birads 目录可以后续作为分类属性、病例级分层或弱监督信息再利用。image-mask 目录规则。当前看到的主要结构:
data/BUS_UC/BUS_UC/BUS_UC/Benigndata/BUS_UC/BUS_UC/BUS_UC/Malignantdata/BUS_UC/BUS_UC/BUS_UC/All脚本扫描结果还显示有类似:
Benign/imagesBenign/masksMalignant/masks这说明:
BUSI 更深,可能需要特别处理路径。适用性判断:
BUSI 和 BUS-UCLM,因为目录结构更绕。目录结构:
data/BUS-UCLM/imagesdata/BUS-UCLM/masks这个结构是当前所有数据里最干净的一类。
适用性判断:
如果接下来要快速从随机数据过渡到真实数据,我最推荐优先从这个数据集开始。
目录结构:
data/CCAUI/Common Carotid Artery Ultrasound Images/US imagesdata/CCAUI/Common Carotid Artery Ultrasound Images/Expert mask images这说明:
Expert mask images,说明标注来自专家掩膜。适用性判断:
当前看到:
data/DDTI 下面没有进一步分层子目录870480这说明:
images/masks 这种明显配对目录。适用性判断:
DDTI 的文件名配对方式,再决定数据加载器怎么兼容。目录结构:
data/OTU_2d/imagesdata/OTU_2d/annotations从结构上看,这是一个很标准的图像-标注分离格式。
适用性判断:
image/annotation 格式”的测试对象。目录结构:
data/TG3K/thyroid-imagedata/TG3K/thyroid-mask这说明:
适用性判断:
TN3K 联合使用。目录结构:
data/TN3K/trainval-imagedata/TN3K/trainval-maskdata/TN3K/test-imagedata/TN3K/test-mask并且目录下还有少量 csv 文件。
这说明:
适用性判断:
如果只从当前 data 的真实结构出发,不考虑外部信息,我建议优先级如下。
BUS-UCLMTG3KTN3K原因:
BUSIBUS-BRABUS_UC原因:
CCAUIDDTIOTU_2d原因:
基于当前 data 目录,下一步数据加载器不要一上来追求“一套代码兼容所有数据”,而应该先分三类:
适用数据:
BUS-UCLMTG3KOTU_2d特点:
适合先做一个通用 paired-folder dataset。
适用数据:
TN3K特点:
trainval 和 test适用数据:
BUSIBUS-BRABUS_UC特点:
这类数据建议单独写解析器,不要强塞进最简单的数据加载器里。
如果要尽快从当前训练骨架过渡到真实实验,我建议按这个顺序推进:
BUS-UCLMTN3KTG3KBUSIBUS-BRA 和 BUS_UC这样做的好处是:
由于当前仓库里已经真实存在多套乳腺超声和甲状腺超声数据,这意味着:
比较适合当前项目的实验路线是:
BUS-UCLM 或 TN3KBUSI + BUS-BRA + BUS_UC + BUS-UCLMTG3K + TN3KCCAUI只看当前 data 目录,当前项目已经拥有一批可以直接支持 2D 超声图像分割的数据资源,而且其中至少有三类数据集已经足够规整,可以马上进入真实数据接入阶段:
BUS-UCLMTN3KTG3K如果目标是尽快把当前半监督分割骨架从“随机占位数据”推进到“真实数据训练”,最优先应做的是:
BUS-UCLM 写第一版真实数据集加载器TN3K 写带现成划分的加载器BUSI、BUS-BRA、BUS_UC 这类更复杂目录这比继续抽象讨论“未来可能有哪些数据集”更有价值,也更符合当前仓库实际状态。