扩散模型
概述
这一页整理扩散模型作为“方法家族”的整体演化。当前材料显示,扩散模型一方面正在成为图像生成、图像编辑乃至部分视频任务的统一技术底座,另一方面其内部架构仍在持续优化,尤其围绕效率、真实性和可控性之间的权衡展开。对这个知识库来说,扩散模型不是单一模型名,而是一条横跨多任务的主干研究路线。
本页关注什么
- 扩散模型的基础假设与建模框架
- 架构与采样层面的改造
- 扩展性与效率问题
- 可控生成与编辑方法
- 扩散思想在不同任务之间的复用
当前综合判断
sources/2026-04-15-freeu、sources/2026-04-15-distilling-ode-solvers-diffusion-models、sources/2026-04-16-on-distillation-of-guided-diffusion-models、sources/2026-04-16-post-training-quantization-on-diffusion-models、sources/2026-04-16-towards-practical-plug-and-play-diffusion-models、sources/2026-04-16-self-guided-diffusion-models 与 sources/2026-04-15-accelerating-diffusion-sampling-optimized-time-steps 进一步把 diffusion efficiency 拆成了七类不同路线:推理期结构调参、求解器蒸馏、guidance 蒸馏、低比特量化、plug-and-play guidance 工程化、自监督 guidance 和时间步 schedule 优化。
sources/2026-04-16-on-distillation-of-guided-diffusion-models 还补上了一条很关键的 few-step 证据:扩散提速并不只是在已有轨迹上换 solver 或调步点,也可以直接把 classifier-free guidance 的组合行为蒸馏进更便宜的学生模型。
sources/2026-04-16-post-training-quantization-on-diffusion-models 则把这条线继续补到部署层,说明 diffusion efficiency 的工程重点已经覆盖“减少步数”和“降低单步网络成本”两层优化目标。
sources/2026-04-16-towards-practical-plug-and-play-diffusion-models 则把效率叙事继续推到控制接口层,说明 practical diffusion system 的关键问题还包括怎样以更低数据成本、更轻参数代价把外部 guidance 模块稳定接进 reverse process。
sources/2026-04-16-self-guided-diffusion-models 又把 guidance 叙事从外部模块继续往模型内部收回,说明 diffusion 控制能力还可以通过 self-supervision 来降低标签依赖,而不只靠外部条件器或蒸馏 teacher。
sources/2026-04-16-controlnet、sources/2026-04-16-a-star、sources/2026-04-16-boxdiff 与 sources/2026-04-16-dense-text-attention-modulation 则把 guidance engineering 的长尾进一步拆细:ControlNet 把条件接入做成 side-branch adapter,A-STAR 把概念冲突与遗忘问题下沉到 cross-attention 内部治理,BoxDiff 和 DenseDiffusion 则把 training-free spatial/layout guidance 直接塞回采样轨迹。这样 diffusion controllability 已经不只是“外挂一个条件器”,而是逐渐长成多层接口体系。
sources/2026-04-16-prompt-to-prompt、sources/2026-04-16-attend-and-excite、sources/2026-04-16-multidiffusion 与 sources/2026-04-16-dlt-layout-transformer 则继续把这套接口体系往 compositional control 推进:Prompt-to-Prompt 把 cross-attention 直接变成编辑控制面板,Attend-and-Excite 把主体遗漏修复拉成 inference-time semantic guidance,MultiDiffusion 把多控制信号绑定成统一生成框架,DLT 则把布局本身前移成离散-连续联合 diffusion 建模对象。
sources/2026-04-16-self-correcting-llm-controlled-diffusion-models、sources/2026-04-16-c3net、sources/2026-04-16-layoutdiffusion-graphic-layout-generation 与 sources/2026-04-16-dc-controlnet 则把 interface consolidation 进一步推到“分类学”层面:闭环 controller、多模态 compound adapters、graphic-layout diffusion,以及 hierarchical ControlNet 都开始各自稳定成一类可命名接口。
sources/2026-04-16-diffusion-autoencoders、sources/2026-04-16-high-fidelity-guided-image-synthesis 与 sources/2026-04-16-blended-diffusion 则把这条线的前史再往前补了一段:表示层、latent guidance 质量和真实图像编辑接口,在 2022–2023 之间已经开始分别成形。
sources/2026-04-16-diffusionclip、sources/2026-04-16-plug-and-play-diffusion-features、sources/2026-04-16-edict-exact-diffusion-inversion 与 sources/2026-04-16-bbdm-brownian-bridge-diffusion 则继续补齐了编辑/翻译这一侧的结构多样性:text guidance、feature reuse、inversion 和 bridge diffusion 都开始各自长成独立方法分支。
sources/2026-04-16-come-closer-diffuse-faster、sources/2026-04-16-rethinking-spatial-inconsistency-cfg 与 sources/2026-04-16-sana-sprint 则把 acceleration / guidance 这一侧继续往前后两端拉开:前者补早期 conditional acceleration 起点,中者补 CFG 的空间一致性治理,后者补 one-step consistency frontier。
sources/2026-04-16-accelerating-dit-gradient-cache、sources/2026-04-16-distilling-parallel-gradients-ode-solvers 与 sources/2026-04-16-text-embedding-quantization-diffusion 则把这条线进一步推进到更细的 deployment / solver frontier:DiT-aware cache、并行梯度 solver 蒸馏,以及 text-guided diffusion 的条件链路量化都开始成为独立优化对象。
sources/2026-04-15-diffusion-models-without-attention 则提供了重要对照,提醒我们高分辨率扩散的可扩展主干未必只会沿 DiT/attention 一条线收敛。
sources/2026-04-15-all-are-worth-words 与 sources/2026-04-15-scalable-diffusion-models-with-transformers 现在把这条 backbone 线补成了两个连续节点:前者证明 ViT 主干可行,后者则把 DiT 作为 canonical 架构正式推成可扩展扩散主干。
sources/2026-04-15-analyzing-training-dynamics-diffusion-models 进一步说明,扩散路线的 scaling 不只是 backbone 选型问题,训练动力学与 EMA 调度同样会直接决定质量上限。
sources/2026-04-15-act-diffusion 与 sources/2026-04-15-deepcache 则把效率问题拆成训练侧与推理侧两条路线:前者试图把 one-step diffusion 训得更稳更省,后者则说明不少速度收益可以通过缓存时序冗余直接拿到。
sources/2026-04-14-contrastive-denoising-score 也说明 diffusion 路线在编辑侧仍持续依赖更细粒度的去噪/评分机制设计。
sources/2026-04-14-codi 与 sources/2026-04-14-conform 进一步说明 diffusion 路线还在沿蒸馏提速与训练目标优化两条线持续推进。
sources/2026-04-14-wavelet-diffusion-models 与 sources/2026-04-14-commoncanvas 进一步说明 diffusion 路线既在优化表示效率,也在探索开放训练数据与开放模型生态。
sources/2026-04-14-specialist-diffusion 与 sources/2026-04-14-image-specific-prompt-learning 也说明 diffusion 路线在继续沿样本高效微调与提示层适配这两条轻量路线推进。
sources/2026-04-14-stablevideo、sources/2026-04-14-video-worth-256-bases 和 sources/2026-04-14-vidtome 进一步说明,视频编辑里的 consistency、inversion 与 token efficiency 也在持续反向定义 diffusion 工程重点。
sources/2026-04-14-vidtome、sources/2026-04-14-camel-video-editing 与 sources/2026-04-14-motionfollower 进一步说明,视频编辑里的效率、运动增强和 score guidance 也正在反向塑造 diffusion 路线的工程重点。
sources/2026-04-14-effective-real-image-editing 与 sources/2026-04-14-prompt-tuning-inversion 进一步说明,diffusion editing 的关键竞争点还持续落在 inversion 链路的速度与条件调优上;sources/2026-04-14-framepainter 则把视频扩散先验重新接回图像编辑。
sources/2026-04-14-null-text-inversion 还说明,扩散路线里的关键竞争点不只在主干网络,也在 inversion 与可编辑轨道构造这类机制层。
sources/2026-04-14-rave-video-editing 也提醒这条主线里“效率 + 一致性”的工程权衡已经开始直接决定视频编辑可用性。
在现有材料里,扩散模型已经呈现出两种清晰角色。第一种角色是“统一底座”:sources/2026-04-12-dreamomni、sources/2026-04-12-omnigen 和 sources/2026-04-12-unireal 都把它视为支撑多任务统一的基础框架。第二种角色是“持续优化的生成核心”:sources/2026-04-12-d2it 这类工作说明,围绕 latent 表示、区域粒度和噪声预测机制,扩散模型内部仍有大量结构优化空间。
关联页面
- topics/image-generation
- topics/image-editing
- topics/diffusion-efficiency-engineering
- topics/video-understanding
- topics/generative-model-evaluation
后续值得追踪的问题
- 哪些改进真正显著降低了推理成本,而不是只换来表面 benchmark 提升?
- 在什么条件下,扩散模型仍然优于自回归或 flow-based 替代路线?
- 统一扩散系统长期是否会比专用体系更有扩展性?