Post-Training Quantization on Diffusion Models(CVPR 2023):把扩散模型推理进一步压到低比特部署
会议:CVPR 2023
发表日期:2022/11/28
资料加入日期:2026-04-16
一句话结论
这篇工作把 diffusion efficiency 主线推进到部署层:它用 training-free 的 PTQ 方法直接把扩散模型压到 8-bit,同时尽量保住生成质量,并且能叠加到已有的 fast-sampling 路线上。
问题定义
扩散模型的慢,来自两层成本同时累加:一层是去噪步数很多,另一层是每一步都要调用很重的噪声估计网络。已有很多工作集中在缩短采样轨迹,这篇论文则聚焦另一半问题——如何压缩每一步的网络计算成本,让 diffusion 更接近可部署系统。
方法概述
作者选择 post-training quantization 这条训练后压缩路线,避免重新训练 diffusion model。难点在于 diffusion 的噪声估计网络输出会随着 time-step 变化,传统面向单时间步场景的 PTQ 方法很难直接迁移。论文围绕 quantized operations、calibration dataset、calibration metric 三个维度做 diffusion-specific 设计,让校准过程能够覆盖 multi-time-step 结构,并把 full-precision 模型直接转成低比特版本。
关键发现
- 它把 topics/diffusion-models 中的 efficiency 叙事继续往部署端推进:现在这条线已经覆盖 scheduler、solver、guidance、cache、free lunch reweighting 和 low-bit quantization。
- 论文报告可在 training-free 条件下把 diffusion model 量化到 8-bit,同时维持甚至提升部分生成表现,说明量化在 diffusion 上开始具备实用可行性。
- 它和 sources/2026-04-16-on-distillation-of-guided-diffusion-models、sources/2026-04-15-distilling-ode-solvers-diffusion-models 形成很好的互补:前两者压缩采样行为和轨迹,这篇压缩每一步的网络计算。
- 论文明确指出该方法可 plug into DDIM 等 fast-sampling 方法,因此它更像 deployment multiplier,而不是单独存在的一条提速技巧。
局限或疑问
- 这篇工作主要证明 8-bit PTQ 的可行性,更低比特设置下的质量边界与稳定性仍值得继续跟踪。
- 它聚焦图像生成侧的噪声估计网络压缩,视频 diffusion、统一生成编辑模型和更大规模多模态系统中的收益还需要后续证据。
- 量化改善了单步成本,整体系统延迟仍会受到采样步数与内存访问模式影响,因此它更适合和其他 few-step 技术组合看。
原始链接
- https://arxiv.org/abs/2211.15736
- https://arxiv.org/pdf/2211.15736.pdf
相关页面
- topics/image-generation
- topics/diffusion-models
- sources/2026-04-16-on-distillation-of-guided-diffusion-models
- sources/2026-04-15-distilling-ode-solvers-diffusion-models
- sources/2026-04-15-deepcache
备注
它在本库中的价值,是把“扩散提速”从算法路径进一步补到模型部署路径。这样 diffusion efficiency 主线已经更像一张完整工程图谱,而不是几篇互相孤立的 sampler 论文。