High-Fidelity Guided Image Synthesis with Latent Diffusion Models：把 latent diffusion 的 guidance 质量推到更高保真

一句话结论

这篇工作把 latent diffusion 上的 guidance 质量往高保真方向推了一步，说明在 backbone 稳定之后，guidance 机制本身就是决定生成质量上限的重要杠杆。

问题定义

latent diffusion 已经提供了高效的生成底座，但 guidance 质量仍然会限制结果保真度与语义一致性。论文要解决的是，怎样在 latent diffusion 框架下获得更高质量的 guided synthesis，而不只是维持可用生成。

方法概述

这篇工作围绕 latent diffusion 的 guidance 设计做强化，目标是让引导过程更稳定地转化成高保真图像。它的重要性不只在单篇结果，而在于把“guidance 质量”显式抬升为一个独立工程问题，和后面的 guidance distillation、plug-and-play guidance、self-guidance 一起连成一条更长的技术谱系。

关键发现

它为 topics/diffusion-efficiency-engineering 里的 guidance engineering 层补入了更早的高保真锚点。
它说明 latent diffusion 时代的竞争已经不只在 backbone，也在 guidance 质量本身。
它和 sources/2026-04-16-on-distillation-of-guided-diffusion-models、sources/2026-04-16-towards-practical-plug-and-play-diffusion-models、sources/2026-04-16-self-guided-diffusion-models 共同组成 guidance 子线：先追求更高质量 guidance，再追求更便宜、更可插拔、更少标注依赖的 guidance。

局限或疑问

它强化的是高保真 guidance，本身还没有直接覆盖部署压缩或 few-step acceleration。
这条路线和后续插件化 / 自监督 guidance 路线之间，究竟谁会成为主流，当前还不能下定论。
它主要服务 image-generation，对 image-editing 和 video generation 的外溢效应还需要更多证据。

原始链接

https://arxiv.org/abs/2211.17084
https://arxiv.org/pdf/2211.17084.pdf

备注

它在本库中的价值，是把当前 guidance engineering 叙事往前补到“高保真 latent guidance”阶段，让后面的 distillation / plug-and-play / self-guidance 不会显得像突然出现的分叉。

High-Fidelity Guided Image Synthesis with Latent Diffusion Models把 latent diffusion 的 guidance 质量推到更高保真