LayoutDiffusion(CVPR 2023):面向布局到图像生成的可控扩散模型
会议:CVPR 2023
发表日期:2023/03/30
资料加入日期:2026-04-14
一句话结论
这篇工作把 layout-to-image generation 作为显式可控生成路线补入库里,强化了 image-generation 的空间控制分支。
问题定义
它要解决的是文本到图像生成里缺少明确空间布局控制的问题。对当前知识库来说,它能很好补足 GLIGEN 之外的另一条显式空间控制主线。
方法概述
LayoutDiffusion 通过扩散模型直接建模 layout-to-image generation,使生成结果能够更明确遵循给定布局约束。
关键发现
- 它说明 image-generation 的可控性不只靠文本和对象 grounding,还包括更结构化的空间布局接口。
- 它为之后比较 grounded generation、region control、layout control 这些不同控制接口提供了更清楚的支点。
- 它让图像生成页对“空间可控生成”这一分支的覆盖更完整。
局限或疑问
- 布局控制并不自动带来更强开放语义编辑能力。
- 它更偏结构化生成接口,而不是统一编辑系统本身。
- 它是控制路线补厚节点,不直接回答个性化或多任务统一问题。
原始链接
- https://arxiv.org/abs/2303.17189
- https://arxiv.org/pdf/2303.17189
相关页面
- topics/image-generation
- topics/vision-language
- entities/unified-image-generation-editing
- questions/question-will-unified-image-models-sustain-their-advantage
备注
LayoutDiffusion 在这套库里的作用,是把 image-generation 的显式空间布局控制路线补成明确分支。