正文元数据首页

source · 2026-04-15

Diffusion Models Without Attention不用注意力也能做高分辨率扩散

会议 / 来源: CVPR 2024
发表日期: 2023/11/30
资料加入日期: 2026-04-15
来源类型: paper

论文原文arxiv.org · 2311.18257PDFarxiv.org · 2311.18257代码仓库代码仓库待补充

#near-cvpr-2025 #image-generation #diffusion #primary-source

一句话结论

这篇论文是当前库里很有价值的反向对照：它表明高分辨率扩散未必一定要沿 Transformer/attention 主干走下去，state space backbone 也可能给出更省 FLOPs 的替代路线。

问题定义

高保真图像生成中的扩散模型在高分辨率下计算代价很大。现有 UNet 和 Transformer 路线经常通过 patchify 或全局压缩来换速度，但这会伤害表示能力。论文要解决的是：能否用更可扩展的状态空间主干替换注意力，同时保住高分辨率表示能力。

方法概述

作者提出 DiffuSSM，用 state space model backbone 取代 attention 机制，让扩散训练在高分辨率下保持更好的 FLOP 效率。它的关键价值不是再造一个局部 trick，而是给出一条与 DiT 不同的 backbone 分支。

关键发现

它是 claims/claim-dit-is-becoming-the-default-scalable-generation-backbone 当前最有价值的早期反例之一，因为它明确表明“可扩展主干”并不只剩 attention/DiT 一条路。
它让 topics/diffusion-models 的 backbone 叙事更平衡：Transformer 化很强，但 state space 也在尝试吃掉高分辨率扩散这一块。
它提醒我们，未来的 backbone 竞争可能不是 U-Net vs DiT，而是更广义的高效序列/状态空间主干竞争。

局限或疑问

它证明了无 attention 路线的潜力，但还没有说明这条路线在多模态控制、视频长时序或统一生成-编辑系统里是否同样有优势。
它更偏高分辨率图像生成，不直接触及当前库里大量视频编辑/统一系统证据。
作为反证，它削弱的是“默认唯一主干”这件事，而不是否定 DiT 当前仍很强。

原始链接

https://arxiv.org/abs/2311.18257
https://arxiv.org/pdf/2311.18257

相关页面

备注

这篇论文在本库里的位置非常关键：它不是补“又一个扩散提速技巧”，而是补“DiT 主干叙事的结构性对照证据”。

元数据

{
  "id": "2026-04-15-diffusion-models-without-attention",
  "type": "source",
  "title": "Diffusion Models Without Attention（CVPR 2024）：不用注意力也能做高分辨率扩散",
  "status": "reviewed",
  "created": "2026-04-15",
  "updated": "2026-04-15",
  "venue": "CVPR 2024",
  "ingested_at": "2026-04-15",
  "tags": [
    "near-cvpr-2025",
    "image-generation",
    "diffusion",
    "primary-source"
  ],
  "note_status": "reviewed",
  "source_type": "paper",
  "authors": [
    "Yan, Jing Nathan",
    "Gu, Jiatao",
    "Rush, Alexander M."
  ],
  "published_at": "2023/11/30",
  "canonical_links": [
    "https://arxiv.org/abs/2311.18257",
    "https://arxiv.org/pdf/2311.18257"
  ],
  "raw_entry": "raw/ingest/2026-04-15-diffusion-models-without-attention/",
  "topics": [
    "topics/image-generation",
    "topics/diffusion-models"
  ],
  "entities": [],
  "claims": [
    "claims/claim-dit-is-becoming-the-default-scalable-generation-backbone"
  ],
  "questions": []
}