Blended Diffusion：把文本驱动自然图像编辑直接接进扩散生成过程

一句话结论

这篇工作把自然图像编辑更早地接进 diffusion 路线：它通过混合局部编辑与全局生成过程，让文本驱动编辑能够在真实图像上更自然地落地。

问题定义

早期文本驱动图像编辑常常在两个方向上失衡：要么局部改动不够贴合原图，要么生成结果虽然符合文本但破坏了原始结构。论文要解决的是，怎样让 diffusion 在真实图像编辑里同时保留原图内容和文本目标。

方法概述

作者提出 Blended Diffusion，把待编辑区域和上下文图像共同纳入扩散过程，通过扩散式采样在编辑区域内逐步完成语义改写，同时尽量维持上下文一致性。它的重要性在于把 text-driven editing 从纯生成路线拉回到真实图像编辑场景，并给后续 image-editing topic 提供了一个更早的 diffusion 锚点。

关键发现

它是 topics/image-editing 里很早的 diffusion editing 节点，说明文本驱动真实图像编辑在 2022 年就已经明确接入 diffusion 主线。
它把“编辑区域”和“上下文保持”同时作为生成过程的一部分处理，说明 diffusion editing 很早就开始围绕局部保真度与全局一致性做结构设计。
它和后来的 sources/2026-04-14-diffeditor、sources/2026-04-14-imagen-editor-editbench 能形成清晰前后关系：前者补强编辑精度，后者把方法与 benchmark 一起推进。

局限或疑问

它更像早期自然图像编辑范式，离后来的统一生成-编辑系统还有明显距离。
在复杂多对象、多步指令编辑场景里的可扩展性，当前材料里还看不到足够证据。
这条路线对编辑区域定义和上下文融合的依赖较强，后续是否会被更统一的 latent / transformer 路线替代，仍值得继续跟踪。

原始链接

https://arxiv.org/abs/2111.14818
https://arxiv.org/pdf/2111.14818.pdf

备注

它在本库中的价值，是把当前 image-editing 主线往前接到更早的 diffusion natural-image editing 起点，让后续编辑路线不只从 instruction editing 年代开始讲。

Blended Diffusion把文本驱动自然图像编辑直接接进扩散生成过程