ArticleMetadataMain page

source · 2026-04-16

Blended Diffusion(CVPR 2022):把文本驱动自然图像编辑直接接进扩散生成过程

Blended Diffusion(CVPR 2022):把文本驱动自然图像编辑直接接进扩散生成过程

会议:CVPR 2022
发表日期:2021/11/29
资料加入日期:2026-04-16

一句话结论

这篇工作把自然图像编辑更早地接进 diffusion 路线:它通过混合局部编辑与全局生成过程,让文本驱动编辑能够在真实图像上更自然地落地。

问题定义

早期文本驱动图像编辑常常在两个方向上失衡:要么局部改动不够贴合原图,要么生成结果虽然符合文本但破坏了原始结构。论文要解决的是,怎样让 diffusion 在真实图像编辑里同时保留原图内容和文本目标。

方法概述

作者提出 Blended Diffusion,把待编辑区域和上下文图像共同纳入扩散过程,通过扩散式采样在编辑区域内逐步完成语义改写,同时尽量维持上下文一致性。它的重要性在于把 text-driven editing 从纯生成路线拉回到真实图像编辑场景,并给后续 image-editing topic 提供了一个更早的 diffusion 锚点。

关键发现

  • 它是 topics/image-editing 里很早的 diffusion editing 节点,说明文本驱动真实图像编辑在 2022 年就已经明确接入 diffusion 主线。
  • 它把“编辑区域”和“上下文保持”同时作为生成过程的一部分处理,说明 diffusion editing 很早就开始围绕局部保真度与全局一致性做结构设计。
  • 它和后来的 sources/2026-04-14-diffeditorsources/2026-04-14-imagen-editor-editbench 能形成清晰前后关系:前者补强编辑精度,后者把方法与 benchmark 一起推进。

局限或疑问

  • 它更像早期自然图像编辑范式,离后来的统一生成-编辑系统还有明显距离。
  • 在复杂多对象、多步指令编辑场景里的可扩展性,当前材料里还看不到足够证据。
  • 这条路线对编辑区域定义和上下文融合的依赖较强,后续是否会被更统一的 latent / transformer 路线替代,仍值得继续跟踪。

原始链接

  • https://arxiv.org/abs/2111.14818
  • https://arxiv.org/pdf/2111.14818.pdf

相关页面

备注

它在本库中的价值,是把当前 image-editing 主线往前接到更早的 diffusion natural-image editing 起点,让后续编辑路线不只从 instruction editing 年代开始讲。