BoxDiff（ICCV 2023）：不用训练，直接把框约束压进 diffusion 采样过程

会议：ICCV 2023

发表日期：2023/07/20

资料加入日期：2026-04-16

一句话结论

这篇工作把 spatial guidance 做到了 training-free：用户只给 box 或 scribble，它就在 denoising 中加入空间约束，让对象按指定位置出现，而不需要额外布局数据或微调。

如果要让 diffusion 模型 obey box、mask、scribble 等简单空间条件，很多已有方法需要额外 paired layout data 和 fine-tuning，这会明显抬高控制成本，也限制开放世界场景下的快速使用。

BoxDiff 直接在 diffusion denoising 过程中加入 Inner-Box、Outer-Box 和 Corner 三类空间约束。它不重训模型，也不依赖大量标注布局数据，而是把用户给定的 box/scribble 条件转成采样期的 training-free guidance。

它把 topics/diffusion-efficiency-engineering 里的 guidance 层继续推进到 training-free spatial control：控制不一定靠新模型训练，也可以靠采样期约束直接实现。
相比 sources/2026-04-16-controlnet 的侧支训练接口，BoxDiff 代表另一种低成本路线：不加新参数，直接在推理轨迹里施加约束。
它也和 sources/2026-04-16-a-star、sources/2026-04-16-rethinking-spatial-inconsistency-cfg 形成一组证据：guidance 问题已经细化到空间位置、概念冲突和局部布局一致性。
在 topics/image-generation 语境里，这说明 controllability 的门槛已经从“能不能控制”转向“要用多少训练与标注成本控制”。

它在本库中的价值，是把 diffusion guidance engineering 从“模块能否接入”继续推进到“空间控制、attention 治理与训练免费接口能否系统化成立”。