CV趋势2026 | Mamba分割与DiT合流
Mamba、分割、Diffusion Transformer 正在合流，高分辨率视觉可能要换一套新工具链。

图片
Hello，大家好，我是萍哥的CV，新的一天开始啦。

今天聊一个正在快速升温的方向：Mamba + Segmentation + Diffusion Transformer。

如果说过去十年医学图像分割的底座是 U-Net，过去几年 Transformer 负责把全局建模拉上来，那么 2024 到 2026 这条线正在发生一个很明显的变化：

分割模型开始追求更省、更长、更能细化。

更省，是因为 Mamba/SSM 把长程建模从二次复杂度里拽出来。

更长，是因为 CT、MRI、遥感、显微图像这些高分辨率数据，本质上都需要跨大范围理解上下文。

更能细化，是因为 Diffusion / DiT 让分割不再只是“一次性吐 mask”，而可以把掩膜当成一个逐步生成、逐步修正的过程。

这不是单篇论文的突然爆火，而是一条技术路线的合流。

一、先说结论
Mamba 负责高效全局上下文，CNN 守住局部边界细节，Diffusion Transformer 负责生成式掩膜细化。

这三件事一旦合在一起，医学图像分割、3D 体数据分割、遥感语义分割、工业缺陷检测，都可能受益。

但也要说清楚：这条路线还没有到“统一答案”的阶段。它更像一个新工具箱，正在替代部分昂贵的自注意力模块，同时把扩散模型从“生成好看图片”推进到“生成可靠 mask”。

二、为什么分割最适合吃这波红利？
分割任务有一个天然痛点：它既要看全局，又要抠边界。

只看局部，模型容易把器官边缘、病灶边界、小目标漏掉。

只看全局，模型又容易变得笨重，尤其是 3D 医学图像，一张体数据动不动就是巨大的 voxel 序列。

Transformer 曾经解决了“看全局”的问题，但自注意力的成本太高。分辨率一上去，显存和计算量就会迅速爆炸。

Mamba 的吸引力就在这里：它来自选择性状态空间模型，核心卖点是长序列建模 + 线性复杂度。Mamba 原论文报告了线性序列扩展能力和更高推理吞吐；Vision Mamba 进一步把它带进高分辨率视觉任务。

一句话：

分割缺全局，Transformer 太贵，Mamba 刚好卡在这个中间地带。

三、技术合流图：这条线怎么走到一起的？
Mamba segmentation diffusion transformer 技术合流示意图
图源：本文依据代表论文整理的方向示意图，非论文原图。

这条路线可以粗暴拆成四层。

第一层是 CNN / U-Net。

它的强项是局部纹理、边界细节、跳连融合。医学分割里很多稳定工程系统，至今仍然离不开 U-Net 系列。

第二层是 Transformer。

它把全局关系建模做得非常强，UNETR、SwinUNETR、TransUNet 这类路线都证明了注意力机制对分割有价值。但代价也明显：高分辨率、3D、长序列场景下，成本很容易顶上去。

第三层是 Mamba / SSM。

Vision Mamba 提出双向 Mamba block，把图像序列化后用状态空间模型压缩视觉表示；VMamba 则用 2D Selective Scan 从多个扫描方向汇聚上下文。它们的共同目标很明确：在保留全局感受野的同时，把计算和显存压力打下来。

第四层是 Diffusion / DiT。

DiT 的核心动作是用 Transformer 替代扩散模型里常见的 U-Net backbone，把图像 latent patch 当成序列处理。到了分割任务里，SegDT 这类工作进一步把 Diffusion Transformer 用到医学图像分割，并引入 Rectified Flow 来减少推理步数。

所以这不是“谁替代谁”的故事。

更像是一次重新分工：

CNN 处理细节，Mamba 扫全局，Diffusion/DiT 做掩膜生成与迭代修正。

四、代表方向速览
Mamba segmentation diffusion transformer 方向雷达
图源：本文依据代表论文整理的方向雷达，非论文原图。

1. Mamba：长序列建模的新底座
Mamba 原论文的关键点不是“又一个网络模块”，而是选择性状态空间模型。

它让模型可以根据输入内容选择保留或忘记信息，并用硬件友好的方式处理长序列。论文报告 Mamba 具备线性长度扩展能力，并在推理吞吐上相对 Transformer 有明显优势。

对视觉分割来说，这意味着一件事：

高分辨率图像终于不必完全依赖昂贵自注意力。

2. Vim / VMamba：把 Mamba 真正搬进视觉
Vision Mamba 证明视觉表征并非必须依赖 self-attention。论文中，Vim 在 ImageNet、COCO、ADE20k 等任务上与成熟视觉 Transformer 对比，并报告在 1248×1248 图像特征提取时，相比 DeiT 有 2.8× 速度提升和 86.8% GPU 显存节省。

VMamba 的核心是 SS2D：把一维 selective scan 改造成适合二维图像的扫描方式，通过多个扫描方向补足图像的非序列结构。

这对分割非常关键。

因为分割不是只看“有没有物体”，而是要判断每个像素属于哪里。扫描方向、空间连续性、局部纹理都会影响最终 mask。

3. U-Mamba / SegMamba：医学分割成为第一块试验田
U-Mamba 面向生物医学图像分割，设计了 CNN-SSM 混合块：卷积负责局部特征，SSM 负责长程依赖。论文在 3D 腹部器官、内镜器械、显微细胞等四类任务上验证，并报告优于 CNN 和 Transformer 系列分割网络。

SegMamba 更聚焦 3D 医学图像，目标是在 whole volume features 上做长程建模。它在 BraTS2023 脑肿瘤分割数据集上验证了有效性，并强调即便在 64×64×64 的体特征分辨率上，仍能保持更好的处理速度。

这两类工作说明：

医学图像分割可能是 Mamba 视觉化最自然的落点。

因为医学图像天然高分辨率、长依赖、样本贵、标注难，对效率和全局理解都很敏感。

4. DiT / SegDT：扩散模型开始进入分割主线
DiT 先在生成模型里打开局面：用 Transformer 处理 latent patches，并显示出很强的扩展性。DiT-XL/2 在 ImageNet 256×256 类条件生成上报告了 FID 2.27。

到了 SegDT，思路变成：用 Diffusion Transformer 做医学图像分割，并结合 Rectified Flow，让模型在更少推理步骤下保持扩散模型的灵活性。

SegDT 的关键词很明确：

低成本硬件、较快推理、医学分割 benchmark、公开代码。

它代表了一个趋势：扩散模型不只是生成图片，也可以生成结构化预测。

5. MSM-Diff：Mamba 和 Diffusion 开始直接合体
2025 年 Engineering Applications of Artificial Intelligence 上的 MSM-Diff，把 Diffusion、Mamba、CNN 三者放到一个医学图像分割框架里。

它设计了 Mamba-based U-shaped Feature Encoder，把 3D Multi-scale Spatial Mamba 和 CNN 特征结合起来，同时加入多尺度门控空间卷积模块。

论文在 ISLES'17、ISLES'18、ISLES'22 三个缺血性脑卒中病灶分割数据集上评估，并报告在 DSC 和 HD95 上达到竞争性甚至 SOTA 表现。

这个方向很值得盯。

因为它不再是“用 Mamba 替换 Transformer”这么简单，而是在回答一个更深的问题：

扩散模型负责逐步生成，Mamba 负责高效全局上下文，CNN 负责空间细节，三者能不能变成一个更稳的分割系统？

五、工程上怎么选路线？
如果你做的是 2D 医学图像分割，比如息肉、皮肤病灶、显微细胞，优先看 CNN-Mamba 混合路线。

原因很简单：局部边界不能丢，纯 Mamba 未必天然适合所有局部纹理，混合架构更稳。

如果你做的是 3D CT / MRI / 肿瘤分割，SegMamba、U-Mamba、MSM-Diff 这类路线更值得看。

3D 体数据里，全局上下文和显存压力几乎是绕不开的矛盾。Mamba 的线性复杂度优势，在这里比普通 2D 图像更容易变成实际收益。

如果你做的是边界不确定、mask 需要反复细化的任务，可以重点看 Diffusion / DiT 分割。

扩散模型的优势不是快，而是“逐步修正”。所以它更适合病灶边界模糊、形态变化大、需要不确定性建模的场景。

如果你做的是移动端、低成本硬件或实时系统，就要谨慎上扩散。

Mamba 可能帮你省计算，但 Diffusion 的多步推理可能把省下来的又吃回去。SegDT 引入 Rectified Flow，本质上就是在处理这个问题：既要扩散的表达力，也要少走几步。

六、这条线最值得关注的三个问题
第一，扫描顺序会不会成为新的结构先验？

Mamba 做图像时绕不开“怎么扫描二维/三维空间”。行扫描、列扫描、四方向扫描、窗口扫描、蛇形扫描，可能都会改变模型对空间邻接关系的理解。

未来很可能不是“一个 Mamba block 通吃视觉”，而是针对医学、遥感、工业等场景设计不同扫描路径。

第二，生成式分割能不能提供可信不确定性？

医学分割最大的难题之一，不是模型给错答案，而是模型不知道自己哪里不确定。

Diffusion 天然有采样过程，如果能稳定输出多种可能 mask，再给出不确定区域，对临床复核和标注修正都很有价值。

第三，Mamba 会不会和基础分割模型融合？

SAM、MedSAM 这一类模型已经把提示式分割推到很高的位置。但它们在特定医学场景里仍然需要轻量适配、边界修正和效率优化。

Mamba 作为高效骨干，Diffusion 作为生成式细化模块，很可能会成为基础分割模型下游适配的一部分。

七、真正的机会在哪里？
短期机会在医学分割。

因为医疗图像对高分辨率、长程依赖、边界精度都敏感，而且公开 benchmark 多，容易快速验证方法是否有效。

中期机会在 3D 和多模态。

MRI 多序列、CT 多期相、PET-CT 融合、病理切片大图，这些任务都需要高效处理大量 token。Transformer 方案能做，但成本高；Mamba 方案如果稳定下来，会很有吸引力。

长期机会在统一架构。

未来分割系统可能不再分成“识别模型、生成模型、提示模型”三类，而是变成一个统一框架：

基础模型负责理解，Mamba 负责高效全局上下文，Diffusion 负责可控生成，CNN/卷积模块守住空间细节。

这条线如果走通，医学图像、遥感影像、工业检测、自动驾驶 BEV 分割都会被影响。

八、总结
Mamba segmentation diffusion transformer 这个方向，表面上看关键词很多，其实核心非常清楚：

高分辨率分割正在从“重注意力”走向“高效长程建模 + 生成式细化”。

Mamba 解决的是长序列和高分辨率的成本问题。

Segmentation 提供了最刚需、最容易验证的落地场景。

Diffusion Transformer 提供了更强的结构生成和 mask 细化能力。

所以接下来值得关注的，不是某个名字能不能火一阵，而是这三类能力会不会真正合成下一代分割 backbone。

一句话收尾：

分割的下一波红利，不一定来自更大的 Transformer，而可能来自更会扫描、更会细化、更会省算力的混合架构。

来源与延伸阅读
Mamba: Linear-Time Sequence Modeling with Selective State Spaces https://arxiv.org/abs/2312.00752

Scalable Diffusion Models with Transformers https://arxiv.org/abs/2212.09748

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model https://arxiv.org/abs/2401.09417

VMamba: Visual State Space Model https://arxiv.org/abs/2401.10166

U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation https://arxiv.org/abs/2401.04722

SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation https://arxiv.org/abs/2401.13560

SegDT: A Diffusion Transformer-Based Segmentation Model for Medical Imaging https://arxiv.org/abs/2507.15595

A diffusion model based on multi-scale spatial Mamba for medical image segmentation https://www.sciencedirect.com/science/article/pii/S0952197625010280

Efficient Medical Image Segmentation in Multisensor Imaging: A Survey in the Era of Mamba and Foundation Models https://www.mdpi.com/1424-8220/26/8/2558

医学声明：本文是技术趋势解读，不构成医疗建议、诊断建议或治疗建议。医学图像分割模型的真实部署，需要经过多中心外部验证、临床流程评估和专业医生复核。