超声分割主流方法与分领域方向判断_2026-04-30.md 31 KB

超声数据集主流方法判断记录:SAM2、Swin Transformer V2 与全监督/半监督

1. 问题与结论

本文记录的问题是:截至 2026 年 4 月 30 日,超声数据集上的主流做法是否已经转向 SAM2Swin Transformer V2,以及训练范式究竟是以全监督为主,还是以半监督为主。

结论可以先明确写出。当前超声视觉任务,尤其是分割任务上的主流方法,并不是简单的 SAM2Swin Transformer V2 二选一。更准确的描述是:主流仍然是 U-Net/nnU-Net 一类编码器-解码器框架,以及 CNN-Transformer 混合架构;其中 Swin Transformer 及其变体已经成为非常常见的编码器选择,但 SAM2 仍处在“快速上升、需要医学域适配”的阶段,而不是公开超声基准上的默认主流方法。在训练范式上,全监督仍然是当前公开超声数据集论文和 benchmark 的默认设置;半监督、自监督和弱监督是增长非常快的方向,且在低标注场景下价值很高,但整体上尚未取代全监督成为主流默认范式。[^4]

这个结论不是单篇论文直接给出的,而是基于近两年综述、代表性方法论文、公开基准数据集论文与 foundation model 适配论文综合归纳得到。文中会明确区分“文献直接支持的事实”与“基于文献分布作出的判断”。

2. 核心判断拆解

2.1 当前主流不是 “SAM2 路线”

从文献分布看,SAM2 在超声任务中的位置更像是一个新兴的 foundation model 路线,而不是已经压倒传统分割骨干网络的默认方案。其原因主要有三点。

第一,SAM2 本身是通用视觉基础模型,不是专门为医学影像尤其是超声图像构建的。医学图像和自然图像在纹理统计、边界模糊、噪声类型、灰度分布、器官尺度变化等方面差异明显,超声还额外存在 speckle noise、低对比度、声影、视角依赖和操作者依赖等问题。因此,SAM 系列模型在超声上通常不能简单零样本使用,而需要提示工程、适配模块、参数高效微调或专门的医学域再训练。2024 年对医学场景下 SAM2 的系统评估已经表明,其性能高度依赖任务类型与适配方式,而不是“直接替代现有医学分割模型”。[^5]

第二,超声领域已经开始出现围绕 SAM/SAM2 的专门方法,例如 SAM-MedUSUltraSAM 以及面向超声视频的 SAM2 微调研究。这恰好说明该方向受到重视,但也说明它还处在“需要针对超声域建模”的阶段。如果某类方法已经成为稳定主流,通常论文标题不会集中强调“将通用基础模型适配到超声”,而会更像标准 backbone 的直接使用。现有论文更常见的表达是借助 SAM 做 promptable segmentation、few-shot adaptation、domain adaptation 或 parameter-efficient finetuning,这表明其工业和学术落地仍在加速期而非收敛期。[^8]

第三,公开超声 benchmark 和多数对比实验中,作为强基线和竞争主干的仍然主要是 U-Net 系、UNet++、Attention U-Net、TransUNet、Swin-Unet、nnU-Net 以及各种 CNN-Transformer hybrid,而不是 “SAM2 fine-tuning” 作为所有论文默认必须比较的基础项。这个现象通常可以作为“是否已成主流”的一个实用判据。[^9]

因此,若问题是“现在超声数据集最主流是不是基于 SAM2”,答案应当是否定的。更准确的判断是:SAM2 是重要的新趋势,但不是超声公开任务上的默认主流路线

2.2 当前更接近 “Swin 系编码器 + U-Net 式解码器” 的主流格局

SAM2 相比,Swin Transformer 在超声图像分析中的渗透已经更深。2024 年关于超声视觉 Transformer 的综述明确将 Swin Transformer 列为该领域最核心的 Transformer 骨干之一,并系统讨论了其在分割、分类、检测等任务中的使用方式。综述反映的不是单个数据集表现,而是整个方法谱系的高频程度。[^1]

在具体任务论文中,这种趋势也很清楚。以乳腺超声、心脏超声和其他器官超声为例,文献中常见的是:

  • 以 Swin Transformer 作为编码器,配合 U-Net 式多尺度跳连与解码器;
  • 在局部纹理建模中保留 CNN,在全局依赖建模中引入 Transformer;
  • 用层级式特征金字塔来缓解超声边界模糊、病灶尺度变化和低对比度问题;
  • 通过自注意力、跨尺度融合和边界增强模块提升分割精度。

2024 年的 SwinNet 用于乳腺超声图像分割,直接体现了 “Swin encoder + segmentation decoder” 的典型结构。[^9] 2023 年的 TU-Net 则展示了 Transformer-U-Net 结构在超声心动图左心室分割中的强表现。[^10] 2024 年关于基于 CNN-Transformer 混合架构进行乳腺超声分割的论文进一步说明,研究者的实际选择并不是“纯 Transformer 取代 CNN”,而是混合式设计。[^11] 2025 年的 SSAT-Swin 则把自监督与 Swin 结合起来,说明 Swin 不只是监督学习中的骨干,也开始进入低标注学习路线。[^12]

这里需要特别指出,用户提到的是 Swin Transformer V2。从当前超声文献分布看,真正高频的是 “Swin Transformer / Swin-based / Swin-Unet 风格” 这一大类,而不是必须精确到 Swin Transformer V2 成为统治性标准。换句话说,超声主流更适合表述为 “Swin 系层级 Transformer 已经很主流”,而不是“所有人都切到 Swin V2 了”。这点很重要,因为把 Swin 大类和 Swin V2 的具体版本混为一谈,会高估某一具体变体的行业渗透率。[^12]

因此,若在 SAM2Swin Transformer V2 两者之间二选一,更接近当前主流的一侧是 Swin 系混合架构,而不是 SAM2 foundation-model 路线。但进一步收紧表述时,应写作“Swin 家族及其 hybrid 设计更主流”,而不是武断地写成“Swin Transformer V2 已成唯一主流标准”。

2.3 训练范式仍以全监督为主,半监督是重要增长方向

如果问题是“现在超声数据集是全监督主流还是半监督主流”,综合判断应当是:全监督仍是主流,半监督是高热度方向,但尚未成为默认实验设定

这一判断首先来自数据集和 benchmark 的构造方式。以 CAMUS 为代表的经典超声基准,是公开、带专家标注、面向标准分割评测的数据集。其论文与后续大量工作都把 fully annotated segmentation 视为基准实验前提。[^3] 到了 2025 年,新的肝脏病灶超声 benchmark 仍然延续了这一逻辑:先建设标注数据集,再给出监督基线。[^4] 只要公开 benchmark 的主入口还是“给定标注集训练并比较 Dice/IoU/HD”,全监督就仍然是这个方向的默认主轴。

其次,从论文叙事方式看,半监督/自监督文章通常仍以“减少标注依赖”作为其核心卖点,这意味着它们面对的仍是一个以全监督为参照系的研究生态。2023 年 TMI 的 SABR-Net 聚焦的是半监督超声分割中的边界感知与双重一致性问题。[^2] 2025 年 Nature Communications 报道的 cardiac ultrasound label-free segmentation 则展示了极具代表性的“摆脱像素级人工标注”的强结果。[^13] 这类工作说明半监督与自监督已经不是边缘话题,而是超声研究中最值得关注的增长方向之一。

但要把“增长最快”写成“已经主流”,还需要更严格的证据,例如多数公开 benchmark 的默认 leaderboard 转向低标注协议、主流综述把全监督视为次要分支、或者新方法论文中大部分对比都不再围绕全监督。就目前检索到的文献分布而言,这些信号尚不充分。也就是说,半监督在研究热度上很强,在稀缺标注场景中非常合理,但从整体发表与 benchmark 生态看,仍然是“重要趋势”,不是“已经替代全监督的主流默认范式”。[^13]

3. 为什么会形成这样的主流格局

3.1 超声图像的任务属性使得 U-Net/Hybrid 仍然强势

超声图像与 CT、MRI、自然图像都不同。它往往存在边界模糊、病灶尺度变化大、局部纹理弱、噪声强、伪影明显以及帧间变化不稳定等问题。U-Net 及其变体之所以长期强势,是因为它们的多尺度编码解码结构、跳跃连接和局部纹理保留机制,对这类任务非常适配。即使引入 Transformer,研究者也常常保留 U-Net 式解码器,而不是彻底放弃这一结构母体。[^11]

换言之,在超声中,Transformer 的实际主流化路径不是“完全替代 U-Net”,而是“嵌入 U-Net、增强 U-Net 或与 U-Net 混合”。这也是为什么从工程角度看,nnU-NetSwin-UnetTransUNet、局部卷积加全局注意力等方法会持续占据主流。

3.2 Foundation model 在超声中有潜力,但域差异成本很高

SAM/SAM2 的强项在于大规模预训练与提示式交互分割,但其原始训练分布不是超声。超声域对 foundation model 的挑战尤其大,因为许多结构在视觉上并不像自然图像中的“对象边界”,而更像模糊的灰度模式和受设备条件影响的回声纹理。这会导致“原始预训练表示可迁移,但不能直接拿来即用”的情况。[^7]

因此,SAM2 在超声上的实际落地通常需要:

  • 医学域或超声域再训练;
  • 参数高效微调;
  • 设计 prompt 或 pseudo prompt;
  • 与时间信息结合处理超声视频;
  • 与专门的边界约束、伪标签机制或不确定性建模联用。

这些额外步骤本身就说明,至少在现阶段,foundation model 还不是最省心、最标准的主流 pipeline。

3.3 半监督增长快的根本原因是标注成本和标签噪声

超声图像的标注成本往往高于外行直觉。它不仅需要医学专业知识,还容易受到操作者、切面选择、病灶边界主观判断和设备差异的影响。结果是:标注少、标签不稳定、跨中心泛化弱。正因为如此,半监督、自监督和伪标签方法在超声领域有天然吸引力。[^13]

但“有吸引力”不等于“已经成为多数方法的默认设置”。工业和学术 benchmark 仍然需要可重复、公平的对比环境,而 fully annotated dataset 仍然最容易承担这一角色,所以全监督主流地位仍然稳固。

4. 分领域补充判断

4.1 乳腺超声

乳腺超声是当前最容易做出“方法论文 + 数据实验故事”的子领域之一,原因是公开数据相对多、任务定义清楚、病灶分割与分类之间天然可以联动,而且不同数据集之间设备差异、分辨率差异和病灶外观差异都比较明显,便于做泛化研究。结合 BUSI、BUS-BRA、BUS_UC、BUS-UCLM 这类数据集以及近两年的方法论文,当前乳腺超声的主流格局可以概括为:全监督分割仍占主轴,主干结构以 U-Net 变体、Swin-based segmentation 和 CNN-Transformer hybrid 为主;自监督、半监督和 foundation-model 适配正在快速增加,但主要还是作为提升低标注与跨域泛化能力的增强路线,而非默认基线。[^14]

乳腺超声之所以适合 Transformer 或 hybrid 方法,是因为肿瘤区域常同时包含局部纹理细节和较长程形状依赖。单纯 CNN 很容易在边界模糊区域出现过分平滑,而纯 Transformer 往往在小样本条件下不够稳,因此研究者实际更偏好卷积与注意力结合的结构。2025 年的乳腺超声 AI 系统综述也说明,该子领域已经不再停留在单一架构比较,而是开始重视多任务、可解释性、泛化性和临床落地问题。[^14]

如果要判断这里的“主流方法”,答案仍然不是 SAM2。更准确的说法是:乳腺超声当前最主流的是强监督 U-Net/Transformer-hybrid 基线,最活跃的新方向是自监督预训练、跨数据集泛化和 SAM 类模型适配。[^14]

4.2 心超

心超与其他超声子领域最大的差异,在于它天然带有时序性和功能定量目标。这意味着很多任务并不只是静态分割,而是需要同时考虑左心室/心肌边界、心动周期变化、时序一致性以及最终的生理指标估计。以 CAMUS 及后续超声心动图左心室分割文献为代表,当前心超领域的主流方法仍然是全监督分割模型 + 时序或多尺度建模增强,其中 U-Net 系、Transformer-U-Net 系以及面向视频的时序一致性方法占据主流。[^13]

心超是半监督和弱监督最容易产生高影响力结果的子领域之一,因为它的数据采集量大,但逐帧精标成本极高;同时,临床真正关心的是 EF、容积、壁运动等功能指标,而不是单帧掩膜本身。2025 年 Nature Communications 的 label-free segmentation 已经证明,如果能把无标签视频信息、结构先验和功能约束用好,完全有机会讲出比“再提 0.5 个 Dice”更强的论文故事。[^13]

因此,心超的主流可以概括为:监督分割仍是默认入口,但真正值得做出区分度的方向是时序建模、弱/半监督、以及从分割走向功能量化的一体化方法。这和静态乳腺超声的论文叙事明显不同。

4.3 胎儿超声

胎儿超声的任务分布比乳腺和甲状腺更分散,既包括头围/腹围测量,也包括标准切面识别、器官定位、心脏三血管区分割和母胎联合场景分析。因此,该子领域的“主流方法”不如乳腺和心超那样集中在单一 benchmark 上。现有文献显示,胎儿超声中依然广泛使用轻量 CNN、U-Net 变体和 CNN-Transformer 混合方法,尤其是在头部、心脏和标准切面任务中。[^17]

一个重要特点是,胎儿超声经常受到胎位、孕周、遮挡、母体因素和扫描角度变化的影响,导致跨设备、跨孕周和跨医院泛化问题比静态病灶分割更突出。2024 年关于胎儿心脏三血管识别与分割的工作,和 2025 年结合多尺度卷积与 Transformer 的 Fetal-Net,都说明这一子领域在走向“识别 + 定位/分割 + 质量控制”的综合建模,而不是只做单一像素级分割。[^16]

所以在胎儿超声里,如果只问“主流是 SAM2 还是 Swin V2”,这个问题本身就过窄。更准确的判断是:胎儿超声目前仍以任务定制化的 CNN 或 hybrid 模型为主,真正有价值的方向是围绕多任务、多视图、跨孕周泛化和质量控制做方法设计。Foundation model 路线有空间,但前提依然是解决任务异质性和标注稀缺问题。

4.4 甲状腺超声

甲状腺超声是一个非常适合做分割论文的子领域,因为数据相对可获得,结节边界不规则、伪影和低对比度问题明显,且同时存在腺体区域分割和结节区域分割两个层次。结合 DDTI、TG3K、TN3K 以及近年的公开方法,当前甲状腺超声的主流依旧是:U-Net 及其改进型作为强基线,随后叠加边界建模、纹理增强、多任务检测-分割联合、或弱监督策略。[^21]

与乳腺超声相比,甲状腺超声的一个优势在于:弱监督和粗标注更容易构造。很多样本天然就有框、粗轮廓、TI-RADS 分级、病理结果或文本报告,这使得“从临床已有弱标签中学习分割”比在部分其他子领域更现实。2024 年的 thyroid nodule detection + segmentation multitask 工作,以及 2025 年弱监督甲状腺超声分割论文,都说明这条路已经被验证为有发表潜力的方向。[^21]

因此,甲状腺超声的主流判断应写成:仍以全监督 U-Net 系和边界增强模型为主,但最有论文增长性的方向是弱监督、多任务和跨数据集泛化。如果你的现有项目里已经包含 DDTI、TG3K、TN3K,那么甲状腺方向在实现成本和论文产出比上通常优于重新开一个完全陌生的子领域。

5. 一个最容易出论文的方向建议

如果目标不是做“最前沿但高风险”的方向,而是做一个实现成本可控、实验容易组织、论文故事清晰、且和你现有仓库数据兼容的方向,我更推荐以下选题,而不是直接押注 SAM2

5.1 推荐方向

方向名称:跨数据集弱监督/半监督超声分割,突出边界一致性与域泛化。

具体建议优先落在 甲状腺超声乳腺超声,两者里我更偏向先做甲状腺超声。原因很直接:

  • 你当前仓库里已经明显整理了 DDTITG3KTN3K,数据接口和文献入口都更近;
  • 甲状腺任务既可以做结节,也可以做腺体,天然适合多任务和结构先验;
  • 弱监督标签更容易构造,例如框、粗 mask、scribble、伪标签或分类标签;
  • 跨数据集泛化故事更容易成立,因为 DDTI、TG3K、TN3K 的采集条件和标注风格差异明显;
  • 这个方向比“纯全监督再提一点指标”更容易写出方法意义。

5.2 为什么这个方向容易写论文

这个方向容易出论文,不是因为它简单,而是因为它很容易形成完整的研究闭环:

第一,问题有真实痛点。超声标注昂贵,尤其是精细边界;而医院中已有的大量数据往往只有分类、报告、框选或粗标信息。弱监督/半监督正好切中这个痛点。[^21]

第二,实验设计天然丰富。你可以组织出至少四组结果:

  • 全监督基线;
  • 少标注半监督基线;
  • 跨数据集直接迁移;
  • 跨数据集适配后的泛化结果。

只要实验矩阵设计合理,论文结果页会非常充实,不会只剩一个主表。

第三,方法创新不必过大。这个方向不需要你发明全新大模型,通常只要把以下 2 到 3 个组件组合好,就足以形成可投稿的方法:

  • 边界感知一致性约束;
  • 结构先验或形态约束;
  • teacher-student 伪标签更新;
  • 跨域特征对齐或风格扰动增强;
  • 基于 SAM/SAM2 生成初始伪标签,但主网络仍用 U-Net/Swin hybrid。

也就是说,你完全可以让 SAM/SAM2 成为伪标签教师或先验生成器,而不是把它当最终模型。这比“直接用 SAM2 做 end-to-end SOTA”稳得多,也更符合当前超声领域的实际格局。[^8]

5.3 建议的论文题目方向

下面这个题目方向最容易落地,而且和你现在的数据条件相容:

中文表述: 基于边界一致性与跨域伪标签校正的甲状腺超声弱监督分割方法

英文风格表述: Boundary-Consistent Weakly Supervised Thyroid Ultrasound Segmentation with Cross-Dataset Pseudo-Label Correction

这个题目的好处是,它同时包含了三个容易被审稿人接受的关键词:

  • Weakly Supervised
  • Boundary-Consistent
  • Cross-Dataset / Cross-Domain

这三个关键词对应的都是超声领域真实存在的困难,而不是形式化堆词。

5.4 最实用的技术路线

如果按最务实的方式做,我建议技术路线不要太大,控制在一个强 baseline 加两个增益模块:

  1. 主网络用 nnU-NetSwin-Unet / Swin-UNETR 风格结构。
  2. 用少量真 mask + 大量弱标签样本训练 teacher-student 框架。
  3. teacher 负责生成伪 mask,student 接收强弱增强下的一致性约束。
  4. 单独设计边界分支,优化 boundary Dice / contour loss,减少超声模糊边界导致的伪标签塌陷。
  5. 加一个跨数据集伪标签筛选模块,例如基于不确定性或形态先验过滤伪标签。
  6. 最后在 DDTI -> TN3KTN3K -> DDTITG3K + TN3K 联训等设置上验证泛化。

这样的方法结构并不夸张,但论文叙事很完整:低标注、边界难、跨域差、弱标签可用、方法有针对性、实验有层次

5.5 备选方向

如果你不想先做甲状腺,第二推荐是乳腺超声跨数据集半监督分割 + 良恶性分类联合学习。这个方向的好处是,BUSI、BUS-BRA、BUS_UC、BUS-UCLM 足以支持“跨院泛化 + 分割促进分类解释性”的故事。缺点是公开工作更多,竞争比甲状腺更激烈。

第三推荐是心超视频弱监督分割 + 功能指标回归。这个方向学术价值高,但工程复杂度也明显更高,因为要处理视频、时序一致性和功能量化,对训练与验证管线要求更严。

胎儿超声更适合做“多任务标准切面识别 + 结构分割 + 质量控制”,但如果当前仓库没有现成数据和清洗管线,不建议把它当第一篇切入点。

6. 为什么本项目不建议只做全监督主线

这里需要先澄清一个容易被误解的问题:不建议只做全监督主线,并不等于不做全监督实验,也不等于全监督没有价值。恰恰相反,全监督在本项目中仍然是必须存在的基础部分,因为它最适合承担 baseline、消融参照和训练管线验证的角色。真正不建议的是,把“单纯做一个全监督分割模型并小幅提点”作为整篇论文的唯一主线。

第一个原因是,方法新意通常不够强。在超声分割中,全监督 U-NetnnU-NetSwin-based hybrid、边界增强网络、多尺度融合网络已经相当多。如果本项目最终只是提出一个新的模块,再在 DDTITG3KTN3K 或乳腺数据集上比现有方法高出少量 Dice,论文很容易落入“常规结构改进”的范畴。这样的工作并非不能发表,但对方法设计、实验细节和结果优势的要求会更高,而且审稿人更容易认为贡献有限。[^1][^9][^10][^11][^18][^19][^20]

第二个原因是,只做全监督不容易对齐超声领域最真实的临床痛点。超声和 CT、MRI 不同,它的精细分割标注不仅昂贵,而且主观性更强,边界往往受操作者经验、切面选择、设备差异和图像质量影响。现实临床中更常见的情况不是“有大量高质量像素级标签”,而是“有少量精标、较多粗标、部分框标、报告文本、分类标签或视频数据”。因此,如果论文主线只建立在 fully labeled setting 上,审稿人很容易追问:既然已经有足够精标注,为什么这个方法对实际临床场景仍然重要?而弱监督、半监督、自监督和跨域泛化恰好更直接回应了这一问题。[^2][^13][^18][^21]

第三个原因是,只做全监督会显著压缩论文的实验空间。如果论文设定只有“在一个标注完整的数据集上训练并测试”,实验通常主要围绕主表、少量消融和可视化展开,叙事空间偏窄。相反,一旦引入少标注、弱标签或跨数据集训练,实验矩阵会自然扩展为:全监督上限、少标注条件、跨域直接迁移、适配后泛化、伪标签质量分析、边界鲁棒性分析等多个层次。这样不仅更容易组织结果,也更容易写出有逻辑递进的实验章节。

第四个原因是,本项目现有数据条件本身更适合做“超越纯全监督”的故事。当前仓库里已经明显围绕 DDTITG3KTN3K 和多种乳腺超声数据做了整理,而这些数据集之间本身就存在采集条件、标注粒度、病灶外观和任务定义上的差异。换言之,项目天然具备“跨数据集泛化”和“有限标注学习”的研究条件。如果仍然只把它们当成多个独立全监督 benchmark 来跑,实际上没有充分利用这些数据之间的研究价值。

第五个原因是,只做全监督的竞争压力通常更直接、更硬。在 fully supervised setting 下,你面对的是大量已经成熟的强基线,包括各种 U-Net 变体、Transformer-hybrid 和任务专用模型。要在这种条件下稳定胜出,往往需要非常强的工程实现、充分调参与大量对比。而在弱监督、半监督或跨域泛化设置下,虽然问题更复杂,但方法差异化空间更大,也更容易把“为什么要这样设计”讲清楚。

因此,本项目更合理的策略不是放弃全监督,而是把它放在正确的位置上:

  • 全监督用于建立强 baseline;
  • 全监督结果用于做上限参考和消融对照;
  • 真正的论文主贡献放在弱监督、半监督、跨数据集泛化、边界一致性或伪标签校正上。

这种安排的好处在于,既保留了全监督实验的规范性和可比性,又避免整篇论文沦为“换 backbone 或加模块后小幅提点”的传统增量工作。对于当前这个项目而言,最稳妥的论文路线不是“不要全监督”,而是“先把全监督做强,然后在此基础上做更有问题导向的扩展”

7. 面向实际项目的解释

如果目标是做新项目或搭建 baseline,这些结论可以直接转化为工程建议。

对于标注相对充足、目标是稳定刷公开基准的任务,优先顺序通常仍是:先做 nnU-Net 或强 U-Net baseline,再尝试 Swin 或 CNN-Transformer hybrid,而不是一开始就把 SAM2 当成默认主干。这样做的理由不是保守,而是超声任务上这条路线的复现性、对比充分性和工程可控性都更强。[^10]

对于标注稀缺、跨中心泛化重要、或者目标是视频超声的任务,可以更积极地考虑半监督、自监督以及 foundation model 适配路线。此时 SAM/SAM2 更像一个值得探索的预训练资源,而不是现成的终局结构。[^13]

对于论文定位,如果要描述当前主流,不建议写成“超声分割目前主流是 SAM2”或“主流是 Swin Transformer V2”。更稳妥也更准确的表述是:

当前超声分割仍以全监督的 U-Net/nnU-Net 与 CNN-Transformer hybrid 为主流,其中 Swin 系层级 Transformer 已成为高频骨干;SAM/SAM2 代表的是快速发展的 foundation-model 适配方向,半监督/自监督则是低标注场景下的关键研究趋势。

这句话既保留了方法学趋势,也不会把新兴方向误写成既成事实。

8. 证据强度与局限性

本文中的结论分两类。

第一类是文献直接支持的事实,包括:超声 Transformer 综述对 Swin 的高频讨论;CAMUS 等公开数据集是 fully annotated benchmark;SABR-Net 与 label-free cardiac ultrasound segmentation 证明半监督/自监督方向活跃;SAM/SAM2 医学适配论文表明 foundation model 在超声上的重要性与适配需求。[^13]

第二类是基于文献分布的综合判断,包括:SAM2 尚未成为超声公开 benchmark 的默认主流;Swin 大类明显比 Swin V2 这个具体版本更符合“主流”表述;全监督整体上仍强于半监督作为默认实验范式。这些判断并非单篇论文原文结论,而是根据检索到的综述、基准和代表性方法论文归纳得到。对于学位论文、综述或开题报告,这样的写法是合理的,但应明确其归纳性质。

另一个局限是,超声是一个高度异质的领域。乳腺超声、心超、胎儿超声、甲状腺超声、肝脏病灶超声和超声视频跟踪的主流方法分布并不完全相同。若研究对象明确到某一细分方向,最好再做子领域级别的文献梳理,而不要把整个超声视觉领域当成单一任务。

9. 参考来源

[^1]: Vafaeezadeh M, Tizhoosh HR, et al. Ultrasound Image Analysis with Vision Transformers: A Review. 2024. PubMed: https://pubmed.ncbi.nlm.nih.gov/38473014/

[^2]: Liu J, Wang X, et al. SABR-Net: Semi-supervised Ultrasound Image Segmentation Method Based on Boundary-Aware and Dual-Consistency Regularization. IEEE Transactions on Medical Imaging. 2023. PubMed: https://pubmed.ncbi.nlm.nih.gov/37695964/

[^3]: Leclerc S, Smistad E, et al. Deep Learning for Segmentation Using an Open Large-Scale Dataset in 2D Echocardiography. IEEE Transactions on Medical Imaging. 2019. PubMed: https://pubmed.ncbi.nlm.nih.gov/30802851/

[^4]: Kwok KM, Yang X, et al. Liver lesion segmentation in ultrasound: a benchmark and a baseline network. 2025. Hong Kong University of Science and Technology Research Portal: https://researchportal.hkust.edu.hk/en/publications/liver-lesion-segmentation-in-ultrasound-a-benchmark-and-a-baselin

[^5]: Mazurowski MA, et al. Segment Anything Model 2 in Medical Images: Performance and Pitfalls. 2024. Hugging Face paper page linking the preprint: https://huggingface.co/papers/2408.00756

[^7]: UltraSAM: A Foundation Model for Ultrasound Imaging. 2025. ScienceDirect landing page: https://www.sciencedirect.com/science/article/abs/pii/S0957417425038382

[^8]: Advancing Ultrasound Video Segmentation with Finetuned SAM2 and Data-Centric Learning. arXiv preprint landing page mirrored at XrayInterpreter: https://xrayinterpreter.com/paper/arxiv/2511.05731v1

[^9]: Lou N, et al. SwinNet: Breast Ultrasound Image Segmentation Based on Swin Transformer. Diagnostics. 2024. MDPI: https://www.mdpi.com/2075-4418/14/3/269

[^10]: Li Q, et al. TU-Net: Transformer Encoder and Multiscale Guided Decoder for 2D Echocardiography Left Ventricle Segmentation. 2023. PubMed: https://pubmed.ncbi.nlm.nih.gov/38077559/

[^11]: Wang Y, et al. Improving breast ultrasound lesion segmentation by a CNN-Transformer hybrid architecture. 2024. PubMed: https://pubmed.ncbi.nlm.nih.gov/39397853/

[^12]: Chen X, et al. SSAT-Swin: Self-Supervised Learning for Breast Ultrasound Segmentation with Swin Transformer. 2025. PubMed: https://pubmed.ncbi.nlm.nih.gov/40082183/

[^13]: Howard JP, et al. Label-free segmentation of cardiac ultrasound for automated physiologic quantification. Nature Communications. 2025. https://www.nature.com/articles/s41467-025-59451-5

[^14]: Liu J, Pian L, et al. Artificial intelligence in breast ultrasound: a systematic review of research advances. Frontiers in Oncology. 2025. PubMed: https://pubmed.ncbi.nlm.nih.gov/41098709/

[^16]: Islam U, Ali YA, et al. Fetal-Net: enhancing Maternal-Fetal ultrasound interpretation through Multi-Scale convolutional neural networks and Transformers. Scientific Reports. 2025. PubMed: https://pubmed.ncbi.nlm.nih.gov/40665017/

[^17]: Zeng W, Luo J, et al. Efficient fetal ultrasound image segmentation for automatic head circumference measurement using a lightweight deep convolutional neural network. Medical Physics. 2022. PubMed: https://pubmed.ncbi.nlm.nih.gov/35536111/

[^21]: Weakly supervised thyroid ultrasound segmentation. Computers in Biology and Medicine. 2025. ScienceDirect landing page: https://www.sciencedirect.com/science/article/pii/S0010482525000198