CV趋势2026 | Mamba分割与DiT合流 Mamba、分割、Diffusion Transformer 正在合流,高分辨率视觉可能要换一套新工具链。 图片 Hello,大家好,我是萍哥的CV,新的一天开始啦。 今天聊一个正在快速升温的方向:Mamba + Segmentation + Diffusion Transformer。 如果说过去十年医学图像分割的底座是 U-Net,过去几年 Transformer 负责把全局建模拉上来,那么 2024 到 2026 这条线正在发生一个很明显的变化: 分割模型开始追求更省、更长、更能细化。 更省,是因为 Mamba/SSM 把长程建模从二次复杂度里拽出来。 更长,是因为 CT、MRI、遥感、显微图像这些高分辨率数据,本质上都需要跨大范围理解上下文。 更能细化,是因为 Diffusion / DiT 让分割不再只是“一次性吐 mask”,而可以把掩膜当成一个逐步生成、逐步修正的过程。 这不是单篇论文的突然爆火,而是一条技术路线的合流。 一、先说结论 Mamba 负责高效全局上下文,CNN 守住局部边界细节,Diffusion Transformer 负责生成式掩膜细化。 这三件事一旦合在一起,医学图像分割、3D 体数据分割、遥感语义分割、工业缺陷检测,都可能受益。 但也要说清楚:这条路线还没有到“统一答案”的阶段。它更像一个新工具箱,正在替代部分昂贵的自注意力模块,同时把扩散模型从“生成好看图片”推进到“生成可靠 mask”。 二、为什么分割最适合吃这波红利? 分割任务有一个天然痛点:它既要看全局,又要抠边界。 只看局部,模型容易把器官边缘、病灶边界、小目标漏掉。 只看全局,模型又容易变得笨重,尤其是 3D 医学图像,一张体数据动不动就是巨大的 voxel 序列。 Transformer 曾经解决了“看全局”的问题,但自注意力的成本太高。分辨率一上去,显存和计算量就会迅速爆炸。 Mamba 的吸引力就在这里:它来自选择性状态空间模型,核心卖点是长序列建模 + 线性复杂度。Mamba 原论文报告了线性序列扩展能力和更高推理吞吐;Vision Mamba 进一步把它带进高分辨率视觉任务。 一句话: 分割缺全局,Transformer 太贵,Mamba 刚好卡在这个中间地带。 三、技术合流图:这条线怎么走到一起的? Mamba segmentation diffusion transformer 技术合流示意图 图源:本文依据代表论文整理的方向示意图,非论文原图。 这条路线可以粗暴拆成四层。 第一层是 CNN / U-Net。 它的强项是局部纹理、边界细节、跳连融合。医学分割里很多稳定工程系统,至今仍然离不开 U-Net 系列。 第二层是 Transformer。 它把全局关系建模做得非常强,UNETR、SwinUNETR、TransUNet 这类路线都证明了注意力机制对分割有价值。但代价也明显:高分辨率、3D、长序列场景下,成本很容易顶上去。 第三层是 Mamba / SSM。 Vision Mamba 提出双向 Mamba block,把图像序列化后用状态空间模型压缩视觉表示;VMamba 则用 2D Selective Scan 从多个扫描方向汇聚上下文。它们的共同目标很明确:在保留全局感受野的同时,把计算和显存压力打下来。 第四层是 Diffusion / DiT。 DiT 的核心动作是用 Transformer 替代扩散模型里常见的 U-Net backbone,把图像 latent patch 当成序列处理。到了分割任务里,SegDT 这类工作进一步把 Diffusion Transformer 用到医学图像分割,并引入 Rectified Flow 来减少推理步数。 所以这不是“谁替代谁”的故事。 更像是一次重新分工: CNN 处理细节,Mamba 扫全局,Diffusion/DiT 做掩膜生成与迭代修正。 四、代表方向速览 Mamba segmentation diffusion transformer 方向雷达 图源:本文依据代表论文整理的方向雷达,非论文原图。 1. Mamba:长序列建模的新底座 Mamba 原论文的关键点不是“又一个网络模块”,而是选择性状态空间模型。 它让模型可以根据输入内容选择保留或忘记信息,并用硬件友好的方式处理长序列。论文报告 Mamba 具备线性长度扩展能力,并在推理吞吐上相对 Transformer 有明显优势。 对视觉分割来说,这意味着一件事: 高分辨率图像终于不必完全依赖昂贵自注意力。 2. Vim / VMamba:把 Mamba 真正搬进视觉 Vision Mamba 证明视觉表征并非必须依赖 self-attention。论文中,Vim 在 ImageNet、COCO、ADE20k 等任务上与成熟视觉 Transformer 对比,并报告在 1248×1248 图像特征提取时,相比 DeiT 有 2.8× 速度提升和 86.8% GPU 显存节省。 VMamba 的核心是 SS2D:把一维 selective scan 改造成适合二维图像的扫描方式,通过多个扫描方向补足图像的非序列结构。 这对分割非常关键。 因为分割不是只看“有没有物体”,而是要判断每个像素属于哪里。扫描方向、空间连续性、局部纹理都会影响最终 mask。 3. U-Mamba / SegMamba:医学分割成为第一块试验田 U-Mamba 面向生物医学图像分割,设计了 CNN-SSM 混合块:卷积负责局部特征,SSM 负责长程依赖。论文在 3D 腹部器官、内镜器械、显微细胞等四类任务上验证,并报告优于 CNN 和 Transformer 系列分割网络。 SegMamba 更聚焦 3D 医学图像,目标是在 whole volume features 上做长程建模。它在 BraTS2023 脑肿瘤分割数据集上验证了有效性,并强调即便在 64×64×64 的体特征分辨率上,仍能保持更好的处理速度。 这两类工作说明: 医学图像分割可能是 Mamba 视觉化最自然的落点。 因为医学图像天然高分辨率、长依赖、样本贵、标注难,对效率和全局理解都很敏感。 4. DiT / SegDT:扩散模型开始进入分割主线 DiT 先在生成模型里打开局面:用 Transformer 处理 latent patches,并显示出很强的扩展性。DiT-XL/2 在 ImageNet 256×256 类条件生成上报告了 FID 2.27。 到了 SegDT,思路变成:用 Diffusion Transformer 做医学图像分割,并结合 Rectified Flow,让模型在更少推理步骤下保持扩散模型的灵活性。 SegDT 的关键词很明确: 低成本硬件、较快推理、医学分割 benchmark、公开代码。 它代表了一个趋势:扩散模型不只是生成图片,也可以生成结构化预测。 5. MSM-Diff:Mamba 和 Diffusion 开始直接合体 2025 年 Engineering Applications of Artificial Intelligence 上的 MSM-Diff,把 Diffusion、Mamba、CNN 三者放到一个医学图像分割框架里。 它设计了 Mamba-based U-shaped Feature Encoder,把 3D Multi-scale Spatial Mamba 和 CNN 特征结合起来,同时加入多尺度门控空间卷积模块。 论文在 ISLES'17、ISLES'18、ISLES'22 三个缺血性脑卒中病灶分割数据集上评估,并报告在 DSC 和 HD95 上达到竞争性甚至 SOTA 表现。 这个方向很值得盯。 因为它不再是“用 Mamba 替换 Transformer”这么简单,而是在回答一个更深的问题: 扩散模型负责逐步生成,Mamba 负责高效全局上下文,CNN 负责空间细节,三者能不能变成一个更稳的分割系统? 五、工程上怎么选路线? 如果你做的是 2D 医学图像分割,比如息肉、皮肤病灶、显微细胞,优先看 CNN-Mamba 混合路线。 原因很简单:局部边界不能丢,纯 Mamba 未必天然适合所有局部纹理,混合架构更稳。 如果你做的是 3D CT / MRI / 肿瘤分割,SegMamba、U-Mamba、MSM-Diff 这类路线更值得看。 3D 体数据里,全局上下文和显存压力几乎是绕不开的矛盾。Mamba 的线性复杂度优势,在这里比普通 2D 图像更容易变成实际收益。 如果你做的是边界不确定、mask 需要反复细化的任务,可以重点看 Diffusion / DiT 分割。 扩散模型的优势不是快,而是“逐步修正”。所以它更适合病灶边界模糊、形态变化大、需要不确定性建模的场景。 如果你做的是移动端、低成本硬件或实时系统,就要谨慎上扩散。 Mamba 可能帮你省计算,但 Diffusion 的多步推理可能把省下来的又吃回去。SegDT 引入 Rectified Flow,本质上就是在处理这个问题:既要扩散的表达力,也要少走几步。 六、这条线最值得关注的三个问题 第一,扫描顺序会不会成为新的结构先验? Mamba 做图像时绕不开“怎么扫描二维/三维空间”。行扫描、列扫描、四方向扫描、窗口扫描、蛇形扫描,可能都会改变模型对空间邻接关系的理解。 未来很可能不是“一个 Mamba block 通吃视觉”,而是针对医学、遥感、工业等场景设计不同扫描路径。 第二,生成式分割能不能提供可信不确定性? 医学分割最大的难题之一,不是模型给错答案,而是模型不知道自己哪里不确定。 Diffusion 天然有采样过程,如果能稳定输出多种可能 mask,再给出不确定区域,对临床复核和标注修正都很有价值。 第三,Mamba 会不会和基础分割模型融合? SAM、MedSAM 这一类模型已经把提示式分割推到很高的位置。但它们在特定医学场景里仍然需要轻量适配、边界修正和效率优化。 Mamba 作为高效骨干,Diffusion 作为生成式细化模块,很可能会成为基础分割模型下游适配的一部分。 七、真正的机会在哪里? 短期机会在医学分割。 因为医疗图像对高分辨率、长程依赖、边界精度都敏感,而且公开 benchmark 多,容易快速验证方法是否有效。 中期机会在 3D 和多模态。 MRI 多序列、CT 多期相、PET-CT 融合、病理切片大图,这些任务都需要高效处理大量 token。Transformer 方案能做,但成本高;Mamba 方案如果稳定下来,会很有吸引力。 长期机会在统一架构。 未来分割系统可能不再分成“识别模型、生成模型、提示模型”三类,而是变成一个统一框架: 基础模型负责理解,Mamba 负责高效全局上下文,Diffusion 负责可控生成,CNN/卷积模块守住空间细节。 这条线如果走通,医学图像、遥感影像、工业检测、自动驾驶 BEV 分割都会被影响。 八、总结 Mamba segmentation diffusion transformer 这个方向,表面上看关键词很多,其实核心非常清楚: 高分辨率分割正在从“重注意力”走向“高效长程建模 + 生成式细化”。 Mamba 解决的是长序列和高分辨率的成本问题。 Segmentation 提供了最刚需、最容易验证的落地场景。 Diffusion Transformer 提供了更强的结构生成和 mask 细化能力。 所以接下来值得关注的,不是某个名字能不能火一阵,而是这三类能力会不会真正合成下一代分割 backbone。 一句话收尾: 分割的下一波红利,不一定来自更大的 Transformer,而可能来自更会扫描、更会细化、更会省算力的混合架构。 来源与延伸阅读 Mamba: Linear-Time Sequence Modeling with Selective State Spaces https://arxiv.org/abs/2312.00752 Scalable Diffusion Models with Transformers https://arxiv.org/abs/2212.09748 Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model https://arxiv.org/abs/2401.09417 VMamba: Visual State Space Model https://arxiv.org/abs/2401.10166 U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation https://arxiv.org/abs/2401.04722 SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation https://arxiv.org/abs/2401.13560 SegDT: A Diffusion Transformer-Based Segmentation Model for Medical Imaging https://arxiv.org/abs/2507.15595 A diffusion model based on multi-scale spatial Mamba for medical image segmentation https://www.sciencedirect.com/science/article/pii/S0952197625010280 Efficient Medical Image Segmentation in Multisensor Imaging: A Survey in the Era of Mamba and Foundation Models https://www.mdpi.com/1424-8220/26/8/2558 医学声明:本文是技术趋势解读,不构成医疗建议、诊断建议或治疗建议。医学图像分割模型的真实部署,需要经过多中心外部验证、临床流程评估和专业医生复核。