Scalable Diffusion Models with Transformers：DiT 把 Transformer 真正坐实为可扩展扩散主干

一句话结论

这篇论文是当前库里最关键的 DiT 正统锚点：它不再只是证明 ViT 可以做扩散主干，而是进一步把“Transformer 主干会随算力扩张而稳定变强”这件事做成了清晰的 scaling 叙事。

问题定义

它要解决的是扩散模型主干虽然已经开始从 CNN U-Net 向 Transformer 演化，但社区还缺少一个足够干净、足够有说服力的答案：如果把 Transformer 认真当作 latent diffusion 的底座，它是否真的具备比传统设计更好的可扩展性，而不是只是一种可行替代品。

方法概述

方法上，论文提出 DiT（Diffusion Transformer），把潜空间图像切成 patch token 后交给纯 Transformer 主干处理，并系统比较不同深度、宽度、patch 粒度带来的计算量与质量变化。它的关键不只是换 backbone，而是把 Gflops 明确当成 scaling 观察轴，展示更大的 DiT 会稳定带来更低的 FID。

关键发现

它为 entities/diffusion-transformer 提供了真正意义上的 canonical paper：从这里开始，DiT 不再只是“Transformer 化扩散”的泛称，而是一条有明确命名和 scaling 证据的主干路线。
它显著补强了 claims/claim-dit-is-becoming-the-default-scalable-generation-backbone：后续很多图像/视频生成工作沿着 DiT 做压缩、控制和长序列扩展，更像是建立在这篇论文已经坐实的可扩展底座之上。
它与 sources/2026-04-15-all-are-worth-words 形成清晰分工：前者更像 ViT 主干可行性的前史起点，后者则把 DiT 作为正式架构谱系推到主舞台。

局限或疑问

它的证据核心仍集中在图像生成 benchmark，并不能直接推出视频长时序、复杂编辑控制和多模态条件注入下同样最优。
它强调的是 scaling 优势，不等于所有部署场景都会优先选择 DiT；在高分辨率效率、注意力成本和推理工程上，仍可能被其他 backbone 挑战。
它把“更大更强”讲清楚了，但训练稳定性、蒸馏、一致性训练和缓存加速等后续工程问题还需要其他论文补齐。

原始链接

https://arxiv.org/abs/2212.09748
https://arxiv.org/pdf/2212.09748
https://doi.org/10.1109/ICCV51070.2023.00387

备注

在这套库里，这篇论文的价值主要不是单个 ImageNet FID 数字，而是把“DiT 之所以成为后续默认主干候选，不只是因为它新，而是因为它在 scaling 维度上更像一条可持续扩张的路线”这件事提前讲清楚。

Scalable Diffusion Models with TransformersDiT 把 Transformer 真正坐实为可扩展扩散主干