ArticleMetadataMain page

source · 2026-04-15

Diffusion Models Without Attention(CVPR 2024):不用注意力也能做高分辨率扩散

Diffusion Models Without Attention(CVPR 2024):不用注意力也能做高分辨率扩散

会议:CVPR 2024
发表日期:2023/11/30
资料加入日期:2026-04-15

一句话结论

这篇论文是当前库里很有价值的反向对照:它表明高分辨率扩散未必一定要沿 Transformer/attention 主干走下去,state space backbone 也可能给出更省 FLOPs 的替代路线。

问题定义

高保真图像生成中的扩散模型在高分辨率下计算代价很大。现有 UNet 和 Transformer 路线经常通过 patchify 或全局压缩来换速度,但这会伤害表示能力。论文要解决的是:能否用更可扩展的状态空间主干替换注意力,同时保住高分辨率表示能力。

方法概述

作者提出 DiffuSSM,用 state space model backbone 取代 attention 机制,让扩散训练在高分辨率下保持更好的 FLOP 效率。它的关键价值不是再造一个局部 trick,而是给出一条与 DiT 不同的 backbone 分支。

关键发现

  • 它是 claims/claim-dit-is-becoming-the-default-scalable-generation-backbone 当前最有价值的早期反例之一,因为它明确表明“可扩展主干”并不只剩 attention/DiT 一条路。
  • 它让 topics/diffusion-models 的 backbone 叙事更平衡:Transformer 化很强,但 state space 也在尝试吃掉高分辨率扩散这一块。
  • 它提醒我们,未来的 backbone 竞争可能不是 U-Net vs DiT,而是更广义的高效序列/状态空间主干竞争。

局限或疑问

  • 它证明了无 attention 路线的潜力,但还没有说明这条路线在多模态控制、视频长时序或统一生成-编辑系统里是否同样有优势。
  • 它更偏高分辨率图像生成,不直接触及当前库里大量视频编辑/统一系统证据。
  • 作为反证,它削弱的是“默认唯一主干”这件事,而不是否定 DiT 当前仍很强。

原始链接

  • https://arxiv.org/abs/2311.18257
  • https://arxiv.org/pdf/2311.18257

相关页面

备注

这篇论文在本库里的位置非常关键:它不是补“又一个扩散提速技巧”,而是补“DiT 主干叙事的结构性对照证据”。