Analyzing and Improving the Training Dynamics of Diffusion Models（CVPR 2024）：修正扩散训练动力学的缩放失衡

会议：CVPR 2024

发表日期：2023/12/05

资料加入日期：2026-04-15

一句话结论

这篇论文提醒我们，扩散模型的性能上限不只取决于 backbone 选型，也强烈取决于训练动力学是否稳定；很多收益来自把激活、权重和更新尺度重新校正，而不是简单堆算力。

它要解决的是流行 ADM 扩散架构在训练过程中存在幅值漂移和不平衡，导致训练效率不均、同等算力下模型学得不够好。对当前 wiki 来说，这篇论文补的是 diffusion 主线里偏“训练机制”的基础证据：扩散系统的 scaling 既是模型结构问题，也是优化动力学问题。

论文并没有推翻高层架构，而是系统检查训练过程中激活、权重和更新量的失衡来源，然后重写网络层，使这些量在期望上保持更稳定的尺度；同时还提出 post-hoc 调 EMA 的方法，让训练结束后也能精细选择更合适的 EMA 长度。

它把 diffusion 质量提升的一部分来源从“更大模型/更多数据”转回到“更健康的训练动力学”。
它让 topics/diffusion-models 里的扩散演化叙事更完整：除了主干和推理，训练层本身也是关键优化面。
它和 sources/2026-04-15-all-are-worth-words 形成互补：前者偏 backbone 改写，后者偏 optimization / scaling 改写。

它在本库中的价值，是把 diffusion 的“为什么变强”从单一架构故事拓展成“backbone + training dynamics + inference engineering”三条并行主线。