Post-Training Quantization on Diffusion Models（CVPR 2023）：把扩散模型推理进一步压到低比特部署

会议：CVPR 2023

发表日期：2022/11/28

资料加入日期：2026-04-16

一句话结论

这篇工作把 diffusion efficiency 主线推进到部署层：它用 training-free 的 PTQ 方法直接把扩散模型压到 8-bit，同时尽量保住生成质量，并且能叠加到已有的 fast-sampling 路线上。

问题定义

扩散模型的慢，来自两层成本同时累加：一层是去噪步数很多，另一层是每一步都要调用很重的噪声估计网络。已有很多工作集中在缩短采样轨迹，这篇论文则聚焦另一半问题——如何压缩每一步的网络计算成本，让 diffusion 更接近可部署系统。

方法概述

作者选择 post-training quantization 这条训练后压缩路线，避免重新训练 diffusion model。难点在于 diffusion 的噪声估计网络输出会随着 time-step 变化，传统面向单时间步场景的 PTQ 方法很难直接迁移。论文围绕 quantized operations、calibration dataset、calibration metric 三个维度做 diffusion-specific 设计，让校准过程能够覆盖 multi-time-step 结构，并把 full-precision 模型直接转成低比特版本。

关键发现

它把 topics/diffusion-models 中的 efficiency 叙事继续往部署端推进：现在这条线已经覆盖 scheduler、solver、guidance、cache、free lunch reweighting 和 low-bit quantization。
论文报告可在 training-free 条件下把 diffusion model 量化到 8-bit，同时维持甚至提升部分生成表现，说明量化在 diffusion 上开始具备实用可行性。
它和 sources/2026-04-16-on-distillation-of-guided-diffusion-models、sources/2026-04-15-distilling-ode-solvers-diffusion-models 形成很好的互补：前两者压缩采样行为和轨迹，这篇压缩每一步的网络计算。
论文明确指出该方法可 plug into DDIM 等 fast-sampling 方法，因此它更像 deployment multiplier，而不是单独存在的一条提速技巧。

局限或疑问

这篇工作主要证明 8-bit PTQ 的可行性，更低比特设置下的质量边界与稳定性仍值得继续跟踪。
它聚焦图像生成侧的噪声估计网络压缩，视频 diffusion、统一生成编辑模型和更大规模多模态系统中的收益还需要后续证据。
量化改善了单步成本，整体系统延迟仍会受到采样步数与内存访问模式影响，因此它更适合和其他 few-step 技术组合看。

原始链接

https://arxiv.org/abs/2211.15736
https://arxiv.org/pdf/2211.15736.pdf

备注

它在本库中的价值，是把“扩散提速”从算法路径进一步补到模型部署路径。这样 diffusion efficiency 主线已经更像一张完整工程图谱，而不是几篇互相孤立的 sampler 论文。

Post-Training Quantization on Diffusion Models（CVPR 2023）：把扩散模型推理进一步压到低比特部署

Post-Training Quantization on Diffusion Models（CVPR 2023）：把扩散模型推理进一步压到低比特部署

一句话结论

问题定义

方法概述

关键发现

局限或疑问

原始链接

相关页面

备注

Metadata