Diffusion Autoencoders（CVPR 2022）：为扩散模型补上更可解释、可解码的语义表征层

会议：CVPR 2022

发表日期：2021/11/30

资料加入日期：2026-04-16

一句话结论

这篇工作把 diffusion 从“只会采样的生成器”往“带语义编码能力的表示模型”推进了一步，为后续可编辑、可操控的 diffusion 表征路线补了一个早期锚点。

标准 diffusion 更擅长高质量生成，弱在显式语义表征。没有一个稳定、可解码、可操作的潜在表示时，很多编辑、插值和语义操控能力都很难自然建立。论文要解决的是，怎样让 diffusion 也拥有更有意义的表示层。

作者提出 diffusion autoencoder，把语义编码与随机细节建模分开：一个语义 latent 负责高层内容，一个 diffusion decoder 负责把表示还原成图像并生成细节。这样 diffusion 不再只是噪声到图像的黑箱过程，而是获得了一个更可解释的表示接口。

它为 topics/diffusion-models 里的“表示层”补入了很早的基础节点，说明 diffusion 路线并不只有采样效率问题，也一直在探索语义 latent 的可操作性。
它能帮助解释后面很多 editing / guidance 工作为什么会持续围绕 latent space 与可解码表示展开。
它和 sources/2026-04-14-latent-diffusion-models 一起看很有价值：一个强调高分辨率潜空间扩散底座，一个强调语义上更有意义的可解码表示。

它在本库中的价值，是把 diffusion 路线的“表示能力”前史补进来，让后续 latent diffusion、editing latent、semantic control 这些路线拥有更清楚的起点。