Diffusion Models Without Attention(CVPR 2024):不用注意力也能做高分辨率扩散
会议:CVPR 2024
发表日期:2023/11/30
资料加入日期:2026-04-15
一句话结论
这篇论文是当前库里很有价值的反向对照:它表明高分辨率扩散未必一定要沿 Transformer/attention 主干走下去,state space backbone 也可能给出更省 FLOPs 的替代路线。
问题定义
高保真图像生成中的扩散模型在高分辨率下计算代价很大。现有 UNet 和 Transformer 路线经常通过 patchify 或全局压缩来换速度,但这会伤害表示能力。论文要解决的是:能否用更可扩展的状态空间主干替换注意力,同时保住高分辨率表示能力。
方法概述
作者提出 DiffuSSM,用 state space model backbone 取代 attention 机制,让扩散训练在高分辨率下保持更好的 FLOP 效率。它的关键价值不是再造一个局部 trick,而是给出一条与 DiT 不同的 backbone 分支。
关键发现
- 它是 claims/claim-dit-is-becoming-the-default-scalable-generation-backbone 当前最有价值的早期反例之一,因为它明确表明“可扩展主干”并不只剩 attention/DiT 一条路。
- 它让 topics/diffusion-models 的 backbone 叙事更平衡:Transformer 化很强,但 state space 也在尝试吃掉高分辨率扩散这一块。
- 它提醒我们,未来的 backbone 竞争可能不是 U-Net vs DiT,而是更广义的高效序列/状态空间主干竞争。
局限或疑问
- 它证明了无 attention 路线的潜力,但还没有说明这条路线在多模态控制、视频长时序或统一生成-编辑系统里是否同样有优势。
- 它更偏高分辨率图像生成,不直接触及当前库里大量视频编辑/统一系统证据。
- 作为反证,它削弱的是“默认唯一主干”这件事,而不是否定 DiT 当前仍很强。
原始链接
- https://arxiv.org/abs/2311.18257
- https://arxiv.org/pdf/2311.18257
相关页面
- topics/image-generation
- topics/diffusion-models
- claims/claim-dit-is-becoming-the-default-scalable-generation-backbone
- entities/diffusion-transformer
备注
这篇论文在本库里的位置非常关键:它不是补“又一个扩散提速技巧”,而是补“DiT 主干叙事的结构性对照证据”。