ArticleMetadataMain page

source · 2026-04-15

Scalable Diffusion Models with Transformers(ICCV 2023):DiT 把 Transformer 真正坐实为可扩展扩散主干

Scalable Diffusion Models with Transformers(ICCV 2023):DiT 把 Transformer 真正坐实为可扩展扩散主干

会议:ICCV 2023
发表日期:2022/12/19
资料加入日期:2026-04-15

一句话结论

这篇论文是当前库里最关键的 DiT 正统锚点:它不再只是证明 ViT 可以做扩散主干,而是进一步把“Transformer 主干会随算力扩张而稳定变强”这件事做成了清晰的 scaling 叙事。

问题定义

它要解决的是扩散模型主干虽然已经开始从 CNN U-Net 向 Transformer 演化,但社区还缺少一个足够干净、足够有说服力的答案:如果把 Transformer 认真当作 latent diffusion 的底座,它是否真的具备比传统设计更好的可扩展性,而不是只是一种可行替代品。

方法概述

方法上,论文提出 DiT(Diffusion Transformer),把潜空间图像切成 patch token 后交给纯 Transformer 主干处理,并系统比较不同深度、宽度、patch 粒度带来的计算量与质量变化。它的关键不只是换 backbone,而是把 Gflops 明确当成 scaling 观察轴,展示更大的 DiT 会稳定带来更低的 FID。

关键发现

局限或疑问

  • 它的证据核心仍集中在图像生成 benchmark,并不能直接推出视频长时序、复杂编辑控制和多模态条件注入下同样最优。
  • 它强调的是 scaling 优势,不等于所有部署场景都会优先选择 DiT;在高分辨率效率、注意力成本和推理工程上,仍可能被其他 backbone 挑战。
  • 它把“更大更强”讲清楚了,但训练稳定性、蒸馏、一致性训练和缓存加速等后续工程问题还需要其他论文补齐。

原始链接

  • https://arxiv.org/abs/2212.09748
  • https://arxiv.org/pdf/2212.09748
  • https://doi.org/10.1109/ICCV51070.2023.00387

相关页面

备注

在这套库里,这篇论文的价值主要不是单个 ImageNet FID 数字,而是把“DiT 之所以成为后续默认主干候选,不只是因为它新,而是因为它在 scaling 维度上更像一条可持续扩张的路线”这件事提前讲清楚。