BoxDiff(ICCV 2023):不用训练,直接把框约束压进 diffusion 采样过程
会议:ICCV 2023
发表日期:2023/07/20
资料加入日期:2026-04-16
一句话结论
这篇工作把 spatial guidance 做到了 training-free:用户只给 box 或 scribble,它就在 denoising 中加入空间约束,让对象按指定位置出现,而不需要额外布局数据或微调。
问题定义
如果要让 diffusion 模型 obey box、mask、scribble 等简单空间条件,很多已有方法需要额外 paired layout data 和 fine-tuning,这会明显抬高控制成本,也限制开放世界场景下的快速使用。
方法概述
BoxDiff 直接在 diffusion denoising 过程中加入 Inner-Box、Outer-Box 和 Corner 三类空间约束。它不重训模型,也不依赖大量标注布局数据,而是把用户给定的 box/scribble 条件转成采样期的 training-free guidance。
关键发现
- 它把 topics/diffusion-efficiency-engineering 里的 guidance 层继续推进到 training-free spatial control:控制不一定靠新模型训练,也可以靠采样期约束直接实现。
- 相比 sources/2026-04-16-controlnet 的侧支训练接口,BoxDiff 代表另一种低成本路线:不加新参数,直接在推理轨迹里施加约束。
- 它也和 sources/2026-04-16-a-star、sources/2026-04-16-rethinking-spatial-inconsistency-cfg 形成一组证据:guidance 问题已经细化到空间位置、概念冲突和局部布局一致性。
- 在 topics/image-generation 语境里,这说明 controllability 的门槛已经从“能不能控制”转向“要用多少训练与标注成本控制”。
局限或疑问
- training-free 约束虽然省去了训练,但会把一部分复杂度转移到推理阶段,因此速度与质量之间仍要权衡。
- 它主要支持相对简单的空间条件;更复杂关系推理或长期一致性并不是这篇工作的重点。
- 当前证据仍以图像为主,视频场景中的 box-guided 控制还需要更多材料。
原始链接
- https://arxiv.org/abs/2307.10816
- https://arxiv.org/pdf/2307.10816.pdf
相关页面
- topics/image-generation
- topics/diffusion-models
- topics/diffusion-efficiency-engineering
- sources/2026-04-16-controlnet
- sources/2026-04-16-a-star
备注
它在本库中的价值,是把 diffusion guidance engineering 从“模块能否接入”继续推进到“空间控制、attention 治理与训练免费接口能否系统化成立”。