扩散模型

概述

这一页整理扩散模型作为“方法家族”的整体演化。当前材料显示，扩散模型一方面正在成为图像生成、图像编辑乃至部分视频任务的统一技术底座，另一方面其内部架构仍在持续优化，尤其围绕效率、真实性和可控性之间的权衡展开。对这个知识库来说，扩散模型不是单一模型名，而是一条横跨多任务的主干研究路线。

本页关注什么

扩散模型的基础假设与建模框架
架构与采样层面的改造
扩展性与效率问题
可控生成与编辑方法
扩散思想在不同任务之间的复用

当前综合判断

sources/2026-04-15-freeu、sources/2026-04-15-distilling-ode-solvers-diffusion-models、sources/2026-04-16-on-distillation-of-guided-diffusion-models、sources/2026-04-16-post-training-quantization-on-diffusion-models、sources/2026-04-16-towards-practical-plug-and-play-diffusion-models、sources/2026-04-16-self-guided-diffusion-models 与 sources/2026-04-15-accelerating-diffusion-sampling-optimized-time-steps 进一步把 diffusion efficiency 拆成了七类不同路线：推理期结构调参、求解器蒸馏、guidance 蒸馏、低比特量化、plug-and-play guidance 工程化、自监督 guidance 和时间步 schedule 优化。

sources/2026-04-16-on-distillation-of-guided-diffusion-models 还补上了一条很关键的 few-step 证据：扩散提速并不只是在已有轨迹上换 solver 或调步点，也可以直接把 classifier-free guidance 的组合行为蒸馏进更便宜的学生模型。

sources/2026-04-16-post-training-quantization-on-diffusion-models 则把这条线继续补到部署层，说明 diffusion efficiency 的工程重点已经覆盖“减少步数”和“降低单步网络成本”两层优化目标。

sources/2026-04-16-towards-practical-plug-and-play-diffusion-models 则把效率叙事继续推到控制接口层，说明 practical diffusion system 的关键问题还包括怎样以更低数据成本、更轻参数代价把外部 guidance 模块稳定接进 reverse process。

sources/2026-04-16-self-guided-diffusion-models 又把 guidance 叙事从外部模块继续往模型内部收回，说明 diffusion 控制能力还可以通过 self-supervision 来降低标签依赖，而不只靠外部条件器或蒸馏 teacher。

sources/2026-04-16-controlnet、sources/2026-04-16-a-star、sources/2026-04-16-boxdiff 与 sources/2026-04-16-dense-text-attention-modulation 则把 guidance engineering 的长尾进一步拆细：ControlNet 把条件接入做成 side-branch adapter，A-STAR 把概念冲突与遗忘问题下沉到 cross-attention 内部治理，BoxDiff 和 DenseDiffusion 则把 training-free spatial/layout guidance 直接塞回采样轨迹。这样 diffusion controllability 已经不只是“外挂一个条件器”，而是逐渐长成多层接口体系。

sources/2026-04-16-prompt-to-prompt、sources/2026-04-16-attend-and-excite、sources/2026-04-16-multidiffusion 与 sources/2026-04-16-dlt-layout-transformer 则继续把这套接口体系往 compositional control 推进：Prompt-to-Prompt 把 cross-attention 直接变成编辑控制面板，Attend-and-Excite 把主体遗漏修复拉成 inference-time semantic guidance，MultiDiffusion 把多控制信号绑定成统一生成框架，DLT 则把布局本身前移成离散-连续联合 diffusion 建模对象。

sources/2026-04-16-self-correcting-llm-controlled-diffusion-models、sources/2026-04-16-c3net、sources/2026-04-16-layoutdiffusion-graphic-layout-generation 与 sources/2026-04-16-dc-controlnet 则把 interface consolidation 进一步推到“分类学”层面：闭环 controller、多模态 compound adapters、graphic-layout diffusion，以及 hierarchical ControlNet 都开始各自稳定成一类可命名接口。

sources/2026-04-16-diffusion-autoencoders、sources/2026-04-16-high-fidelity-guided-image-synthesis 与 sources/2026-04-16-blended-diffusion 则把这条线的前史再往前补了一段：表示层、latent guidance 质量和真实图像编辑接口，在 2022–2023 之间已经开始分别成形。

sources/2026-04-16-diffusionclip、sources/2026-04-16-plug-and-play-diffusion-features、sources/2026-04-16-edict-exact-diffusion-inversion 与 sources/2026-04-16-bbdm-brownian-bridge-diffusion 则继续补齐了编辑/翻译这一侧的结构多样性：text guidance、feature reuse、inversion 和 bridge diffusion 都开始各自长成独立方法分支。

sources/2026-04-16-come-closer-diffuse-faster、sources/2026-04-16-rethinking-spatial-inconsistency-cfg 与 sources/2026-04-16-sana-sprint 则把 acceleration / guidance 这一侧继续往前后两端拉开：前者补早期 conditional acceleration 起点，中者补 CFG 的空间一致性治理，后者补 one-step consistency frontier。

sources/2026-04-16-accelerating-dit-gradient-cache、sources/2026-04-16-distilling-parallel-gradients-ode-solvers 与 sources/2026-04-16-text-embedding-quantization-diffusion 则把这条线进一步推进到更细的 deployment / solver frontier：DiT-aware cache、并行梯度 solver 蒸馏，以及 text-guided diffusion 的条件链路量化都开始成为独立优化对象。

sources/2026-04-15-diffusion-models-without-attention 则提供了重要对照，提醒我们高分辨率扩散的可扩展主干未必只会沿 DiT/attention 一条线收敛。

sources/2026-04-15-all-are-worth-words 与 sources/2026-04-15-scalable-diffusion-models-with-transformers 现在把这条 backbone 线补成了两个连续节点：前者证明 ViT 主干可行，后者则把 DiT 作为 canonical 架构正式推成可扩展扩散主干。

sources/2026-04-15-analyzing-training-dynamics-diffusion-models 进一步说明，扩散路线的 scaling 不只是 backbone 选型问题，训练动力学与 EMA 调度同样会直接决定质量上限。

sources/2026-04-15-act-diffusion 与 sources/2026-04-15-deepcache 则把效率问题拆成训练侧与推理侧两条路线：前者试图把 one-step diffusion 训得更稳更省，后者则说明不少速度收益可以通过缓存时序冗余直接拿到。

sources/2026-04-14-contrastive-denoising-score 也说明 diffusion 路线在编辑侧仍持续依赖更细粒度的去噪/评分机制设计。

sources/2026-04-14-codi 与 sources/2026-04-14-conform 进一步说明 diffusion 路线还在沿蒸馏提速与训练目标优化两条线持续推进。

sources/2026-04-14-wavelet-diffusion-models 与 sources/2026-04-14-commoncanvas 进一步说明 diffusion 路线既在优化表示效率，也在探索开放训练数据与开放模型生态。

sources/2026-04-14-specialist-diffusion 与 sources/2026-04-14-image-specific-prompt-learning 也说明 diffusion 路线在继续沿样本高效微调与提示层适配这两条轻量路线推进。

sources/2026-04-14-stablevideo、sources/2026-04-14-video-worth-256-bases 和 sources/2026-04-14-vidtome 进一步说明，视频编辑里的 consistency、inversion 与 token efficiency 也在持续反向定义 diffusion 工程重点。

sources/2026-04-14-vidtome、sources/2026-04-14-camel-video-editing 与 sources/2026-04-14-motionfollower 进一步说明，视频编辑里的效率、运动增强和 score guidance 也正在反向塑造 diffusion 路线的工程重点。

sources/2026-04-14-effective-real-image-editing 与 sources/2026-04-14-prompt-tuning-inversion 进一步说明，diffusion editing 的关键竞争点还持续落在 inversion 链路的速度与条件调优上；sources/2026-04-14-framepainter 则把视频扩散先验重新接回图像编辑。

sources/2026-04-14-null-text-inversion 还说明，扩散路线里的关键竞争点不只在主干网络，也在 inversion 与可编辑轨道构造这类机制层。

sources/2026-04-14-rave-video-editing 也提醒这条主线里“效率 + 一致性”的工程权衡已经开始直接决定视频编辑可用性。

在现有材料里，扩散模型已经呈现出两种清晰角色。第一种角色是“统一底座”：sources/2026-04-12-dreamomni、sources/2026-04-12-omnigen 和 sources/2026-04-12-unireal 都把它视为支撑多任务统一的基础框架。第二种角色是“持续优化的生成核心”：sources/2026-04-12-d2it 这类工作说明，围绕 latent 表示、区域粒度和噪声预测机制，扩散模型内部仍有大量结构优化空间。

关联页面

后续值得追踪的问题

哪些改进真正显著降低了推理成本，而不是只换来表面 benchmark 提升？
在什么条件下，扩散模型仍然优于自回归或 flow-based 替代路线？
统一扩散系统长期是否会比专用体系更有扩展性？

扩散模型

概述

本页关注什么

当前综合判断

关联页面

后续值得追踪的问题

Metadata