Scalable Diffusion Models with Transformers(ICCV 2023):DiT 把 Transformer 真正坐实为可扩展扩散主干
会议:ICCV 2023
发表日期:2022/12/19
资料加入日期:2026-04-15
一句话结论
这篇论文是当前库里最关键的 DiT 正统锚点:它不再只是证明 ViT 可以做扩散主干,而是进一步把“Transformer 主干会随算力扩张而稳定变强”这件事做成了清晰的 scaling 叙事。
问题定义
它要解决的是扩散模型主干虽然已经开始从 CNN U-Net 向 Transformer 演化,但社区还缺少一个足够干净、足够有说服力的答案:如果把 Transformer 认真当作 latent diffusion 的底座,它是否真的具备比传统设计更好的可扩展性,而不是只是一种可行替代品。
方法概述
方法上,论文提出 DiT(Diffusion Transformer),把潜空间图像切成 patch token 后交给纯 Transformer 主干处理,并系统比较不同深度、宽度、patch 粒度带来的计算量与质量变化。它的关键不只是换 backbone,而是把 Gflops 明确当成 scaling 观察轴,展示更大的 DiT 会稳定带来更低的 FID。
关键发现
- 它为 entities/diffusion-transformer 提供了真正意义上的 canonical paper:从这里开始,DiT 不再只是“Transformer 化扩散”的泛称,而是一条有明确命名和 scaling 证据的主干路线。
- 它显著补强了 claims/claim-dit-is-becoming-the-default-scalable-generation-backbone:后续很多图像/视频生成工作沿着 DiT 做压缩、控制和长序列扩展,更像是建立在这篇论文已经坐实的可扩展底座之上。
- 它与 sources/2026-04-15-all-are-worth-words 形成清晰分工:前者更像 ViT 主干可行性的前史起点,后者则把 DiT 作为正式架构谱系推到主舞台。
局限或疑问
- 它的证据核心仍集中在图像生成 benchmark,并不能直接推出视频长时序、复杂编辑控制和多模态条件注入下同样最优。
- 它强调的是 scaling 优势,不等于所有部署场景都会优先选择 DiT;在高分辨率效率、注意力成本和推理工程上,仍可能被其他 backbone 挑战。
- 它把“更大更强”讲清楚了,但训练稳定性、蒸馏、一致性训练和缓存加速等后续工程问题还需要其他论文补齐。
原始链接
- https://arxiv.org/abs/2212.09748
- https://arxiv.org/pdf/2212.09748
- https://doi.org/10.1109/ICCV51070.2023.00387
相关页面
- topics/image-generation
- topics/diffusion-models
- entities/diffusion-transformer
- claims/claim-dit-is-becoming-the-default-scalable-generation-backbone
备注
在这套库里,这篇论文的价值主要不是单个 ImageNet FID 数字,而是把“DiT 之所以成为后续默认主干候选,不只是因为它新,而是因为它在 scaling 维度上更像一条可持续扩张的路线”这件事提前讲清楚。