ArticleMetadataMain page

source · 2026-04-15

All Are Worth Words(CVPR 2023):把 ViT 直接变成扩散模型主干

All Are Worth Words(CVPR 2023):把 ViT 直接变成扩散模型主干

会议:CVPR 2023
发表日期:2022/09/25
资料加入日期:2026-04-15

一句话结论

这篇论文是当前库里补齐 DiT 主干谱系的关键锚点:它明确提出用 ViT 式主干替代传统 CNN U-Net,并证明这种 backbone 选择本身就足以把扩散模型带到很强的生成表现。

问题定义

它要解决的是扩散模型长期被 CNN U-Net 主导的问题。虽然视觉 Transformer 在很多视觉任务里已经很强,但扩散模型主干仍默认围绕下采样/上采样式 U-Net 组织;这篇工作直接问:扩散模型是否也能把 ViT 当成统一主干,而不是只把 Transformer 当局部模块。

方法概述

方法上,它设计了一个简单通用的 U-ViT 架构,把时间步、条件信息和带噪图像 patch 一起当作 token 处理,并通过浅层与深层之间的长跳连维持扩散建模所需的多尺度信息流。核心不是堆更多技巧,而是把“ViT 能否成为扩散底座”这件事做成一个清晰、可复用的 backbone 方案。

关键发现

局限或疑问

  • 它证明的是 ViT 主干可行且强,但还没有直接回答视频长时序、复杂控制注入和工程部署成本等后续问题。
  • 这里的关键点更偏 backbone 选择,不直接覆盖训练稳定性和推理效率两条后续工程主线。
  • 它是谱系起点,不代表后续所有 DiT 系工作都会自动受益于同样的设计细节。

原始链接

  • https://arxiv.org/abs/2209.12152
  • https://arxiv.org/pdf/2209.12152

相关页面

备注

在这套库里,这篇论文的价值主要不是单篇 SOTA 数字,而是把“ViT/Transformer 能成为扩散模型默认主干”这件事提前坐实,便于后面对 D²iT、MotionStone、LinGen 一类工作按同一 backbone 谱系来读。