Diffusion Models Without Attention（CVPR 2024）：不用注意力也能做高分辨率扩散

会议：CVPR 2024

发表日期：2023/11/30

资料加入日期：2026-04-15

一句话结论

这篇论文是当前库里很有价值的反向对照：它表明高分辨率扩散未必一定要沿 Transformer/attention 主干走下去，state space backbone 也可能给出更省 FLOPs 的替代路线。

高保真图像生成中的扩散模型在高分辨率下计算代价很大。现有 UNet 和 Transformer 路线经常通过 patchify 或全局压缩来换速度，但这会伤害表示能力。论文要解决的是：能否用更可扩展的状态空间主干替换注意力，同时保住高分辨率表示能力。

作者提出 DiffuSSM，用 state space model backbone 取代 attention 机制，让扩散训练在高分辨率下保持更好的 FLOP 效率。它的关键价值不是再造一个局部 trick，而是给出一条与 DiT 不同的 backbone 分支。

它是 claims/claim-dit-is-becoming-the-default-scalable-generation-backbone 当前最有价值的早期反例之一，因为它明确表明“可扩展主干”并不只剩 attention/DiT 一条路。
它让 topics/diffusion-models 的 backbone 叙事更平衡：Transformer 化很强，但 state space 也在尝试吃掉高分辨率扩散这一块。
它提醒我们，未来的 backbone 竞争可能不是 U-Net vs DiT，而是更广义的高效序列/状态空间主干竞争。

这篇论文在本库里的位置非常关键：它不是补“又一个扩散提速技巧”，而是补“DiT 主干叙事的结构性对照证据”。