ArticleMetadataMain page

source · 2026-04-15

Analyzing and Improving the Training Dynamics of Diffusion Models(CVPR 2024):修正扩散训练动力学的缩放失衡

Analyzing and Improving the Training Dynamics of Diffusion Models(CVPR 2024):修正扩散训练动力学的缩放失衡

会议:CVPR 2024
发表日期:2023/12/05
资料加入日期:2026-04-15

一句话结论

这篇论文提醒我们,扩散模型的性能上限不只取决于 backbone 选型,也强烈取决于训练动力学是否稳定;很多收益来自把激活、权重和更新尺度重新校正,而不是简单堆算力。

问题定义

它要解决的是流行 ADM 扩散架构在训练过程中存在幅值漂移和不平衡,导致训练效率不均、同等算力下模型学得不够好。对当前 wiki 来说,这篇论文补的是 diffusion 主线里偏“训练机制”的基础证据:扩散系统的 scaling 既是模型结构问题,也是优化动力学问题。

方法概述

论文并没有推翻高层架构,而是系统检查训练过程中激活、权重和更新量的失衡来源,然后重写网络层,使这些量在期望上保持更稳定的尺度;同时还提出 post-hoc 调 EMA 的方法,让训练结束后也能精细选择更合适的 EMA 长度。

关键发现

  • 它把 diffusion 质量提升的一部分来源从“更大模型/更多数据”转回到“更健康的训练动力学”。
  • 它让 topics/diffusion-models 里的扩散演化叙事更完整:除了主干和推理,训练层本身也是关键优化面。
  • 它和 sources/2026-04-15-all-are-worth-words 形成互补:前者偏 backbone 改写,后者偏 optimization / scaling 改写。

局限或疑问

  • 它主要围绕 ADM 这类图像生成设置,不直接回答 DiT、视频扩散或复杂多模态条件下是否同样成立。
  • 它证明训练动力学很重要,但并不直接告诉我们哪些结论能迁移到现代统一生成/编辑系统。
  • post-hoc EMA 很实用,但与不同架构和 guidance 的交互仍需要更多跨体系验证。

原始链接

  • https://arxiv.org/abs/2312.02696
  • https://arxiv.org/pdf/2312.02696

相关页面

备注

它在本库中的价值,是把 diffusion 的“为什么变强”从单一架构故事拓展成“backbone + training dynamics + inference engineering”三条并行主线。