Latent Diffusion Models(CVPR 2022):高分辨率图像合成的潜空间扩散框架
会议:CVPR 2022
发表日期:2022-01-01
资料加入日期:2026-04-14
一句话结论
这篇工作是现代图像生成主线的关键前史锚点,它把高分辨率扩散生成从像素空间转到潜空间,大幅改变了后续模型的可扩展性讨论。
问题定义
它要解决的是像素空间扩散模型在高分辨率生成上成本过高、训练和采样都很重的问题。对当前知识库来说,它的重要意义不只是效果,而是它改变了后续“扩散模型能否成为主线”的工程前提。
方法概述
论文把扩散过程搬到自动编码器的潜空间里,在保留视觉质量的同时显著降低计算成本。这个设计给后来大量文本到图像与条件生成模型提供了更可扩展的底座。
关键发现
- 它为后续高质量文本到图像扩散模型奠定了工程基础。
- 它说明架构与表示空间设计本身会重写生成模型可扩展性边界。
- 它是 image-generation 前史中非常关键的一块地基。
局限或疑问
- 它更像底座性工作,不直接回答后期统一生成/编辑问题。
- 潜空间设计虽然高效,但也会引入解码器与表示瓶颈。
- 它和后续 DiT 路线之间仍有代际差异,需要在 topic 层显式说明。
原始链接
- https://arxiv.org/abs/2112.10752
- https://arxiv.org/pdf/2112.10752.pdf
相关页面
- topics/image-generation
- topics/diffusion-models
- entities/diffusion-transformer
- claims/claim-dit-is-becoming-the-default-scalable-generation-backbone
- questions/question-data-vs-architecture-in-image-editing
备注
LDM 在这套库中的作用,是把 image-generation 主线真正往前接上:没有它,很多后续生成与编辑路线会像突然冒出来的一样。