图像编辑

概述

这一页聚焦图像编辑方向。当前可以看到的主线包括：更高质量的数据集仍然是性能提升的重要来源；更细粒度的编辑正在越来越依赖视觉-语言 grounding；模型除了“改得对”之外，也越来越强调“保持原图身份与背景一致”；另外，一步式扩散编辑正在把速度推成一个新的竞争维度。

当前综合判断

sources/2026-04-12-anyedit、sources/2026-04-12-fireedit、sources/2026-04-12-omnigen、sources/2026-04-12-dreamomni、sources/2026-04-12-insightedit、sources/2026-04-12-swiftedit、sources/2026-04-12-unireal 与 sources/2026-04-14-pathways-image-manifold 这三轮按“深分析 + 提图 + 再编译”重做后，也把 image-editing 主线的内部分工看得更清楚了：AnyEdit 更像数据与任务组织驱动的统一编辑系统；FireEdit 代表区域感知 grounding 与 diffusion-stage control 的强架构路线；OmniGen 把编辑收进统一图像接口；DreamOmni 把编辑进一步纳入 synthetic data pipeline 与联合训练协同；InsightEdit 把高质量数据与 MLLM 双流桥接合在一起；SwiftEdit 把近实时一步编辑拉到主线前台；UniReal 与 Pathways 则把编辑重写到真实世界动态和视频生成框架中。这让当前 image-editing 更像多股力量同时竞争的主线：数据工厂、局部 grounding、统一接口、联合训练、推理桥接、低时延编辑、世界动态建模、视频化架构重写。

sources/2026-04-16-blended-diffusion 把这条线往前补到了 diffusion natural-image editing 的更早起点，说明后来的 instruction editing、benchmark-aware editing 和统一式 editing 系统，并不是凭空冒出来的，而是接在更早的真实图像扩散编辑实践上。

sources/2026-04-16-diffusionclip、sources/2026-04-16-plug-and-play-diffusion-features、sources/2026-04-16-edict-exact-diffusion-inversion、sources/2026-04-16-bbdm-brownian-bridge-diffusion、sources/2026-04-16-prompt-to-prompt 与 sources/2026-04-16-self-correcting-llm-controlled-diffusion-models 进一步把这条前史补厚成几条并行支线：文本引导操控、feature-level plug-and-play、精确 inversion、bridge-style image-to-image translation、基于 cross-attention 的 prompt-only 编辑控制，以及 LLM controller 驱动的闭环自纠错编辑。

sources/2026-04-14-contrastive-denoising-score 也进一步补厚了 image-editing 里的机制层优化路线。

sources/2026-04-14-customization-assistant 也说明 image-editing 已开始延伸到更面向用户工作流的定制辅助系统。

sources/2026-04-14-concept-weaver 也让 image-editing 对复杂多概念组合场景的覆盖更完整。

sources/2026-04-14-multi-concept-customization 和 sources/2026-04-14-image-specific-prompt-learning 也让 image-editing 对个性化组合与提示层适配的覆盖更完整。

sources/2026-04-14-imagic 把扩散时代真实图像文本编辑的更早起点补了回来，让后续 inversion 路线有了更清楚的前史。

sources/2026-04-14-pix2video 也进一步说明，图像编辑能力迁移到视频侧本身就是近三年非常重要的外溢路线。

再补入 sources/2026-04-14-qk-edit、sources/2026-04-14-insvie-1m、sources/2026-04-14-framepainter 和 sources/2026-04-14-dive-subject-driven-video-editing 后，可以看到图像编辑近三年还在沿着 MM-DiT attention 注入、视频编辑数据构造、视频先验反向借模和主体驱动跨模态扩张继续演化。

再补入 sources/2026-04-14-effective-real-image-editing、sources/2026-04-14-prompt-tuning-inversion、sources/2026-04-14-framepainter 和 sources/2026-04-14-dive-subject-driven-video-editing 后，可以看到图像编辑近三年还沿着 inversion 加速、prompt-level inversion、视频先验反向借模与主体驱动跨到视频侧这几条线继续扩张。

再补上 sources/2026-04-14-paint-by-example 和 sources/2026-04-14-null-text-inversion，可以看到这条线在近三年里还同时扩出了 exemplar-based control 与真实图像 inversion 机制两条重要分支。

sources/2026-04-14-anydoor 进一步说明，近三年图像编辑/生成融合的另一个方向是对象级局部定制，而不只是全局 instruction editing。

跨年份证据把这条线补得更完整了。早期的 sources/2026-04-14-instructpix2pix 把 instruction-based image editing 正式建立成一个清晰任务，并强烈依赖合成数据构造；到 sources/2026-04-14-diffeditor，性能提升又明显转向更细的编辑机制、采样策略与局部约束。结合现有 2025 证据看，image-editing 的演化并不是单纯换模型，而是从“先把任务定义出来”逐步走向“把编辑做得更准、更稳、更灵活”。第一，数据质量仍然是瓶颈：sources/2026-04-12-anyedit 和 sources/2026-04-12-insightedit 都把更高质量、更复杂的编辑数据视为性能关键。第二，更强的指令跟随越来越依赖多模态 grounding，例如 sources/2026-04-12-fireedit 和 sources/2026-04-12-insightedit 中的区域感知或双流设计。第三，编辑范式本身也在被重写，sources/2026-04-14-pathways-image-manifold 直接把图像编辑转成视频生成式的连续过程。第四，可控性不再只是语义正确，还包括保留原图身份和背景一致性。第五，编辑速度正在成为明确竞争方向，sources/2026-04-12-swiftedit 就把一步式扩散推向接近实时场景。

跨年份阶段性演化小结

如果把当前已编译证据按时间排开，这条主线大致可以分成三个阶段。第一阶段是 任务建立期：sources/2026-04-14-instructpix2pix 让“图像 + 指令 → 编辑结果”成为一个可规模化训练的问题，奠定了 instruction-based image editing 的基本接口。第二阶段是 能力校准期：像 sources/2026-04-14-diffeditor 这样的工作开始聚焦编辑精度、局部控制、灵活采样和复杂操作组合，说明研究重心已经从“能不能做编辑”转向“怎样把编辑做准”。第三阶段则是 系统整合期：到 sources/2026-04-12-anyedit、sources/2026-04-12-insightedit、sources/2026-04-14-pathways-image-manifold 这一层，路线开始分化成数据驱动统一系统、多模态 grounding、以及把编辑问题重写到视频生成路径上的更强结构方案。

这条演化链说明，image-editing 并不是简单沿着单一模型家族线性升级，而是在三个维度上同时推进：任务接口越来越统一，局部编辑机制越来越精细，跨任务借模越来越激进。也正因为如此，现在再看“数据 vs 架构”这类问题，已经不能停留在单点方法比较，而要把不同年份的研究目标变化一起看进去。

当前阶段结论

2023 年更像是在建立 instruction-based image editing 这个任务本身。
2024 年开始明显进入“提升精度、灵活性与局部控制”的成熟优化期。
到当前 2025 语境里，竞争已经升级成“数据设计、统一框架、多模态 grounding、跨任务重写”之间的系统级竞争。

方法家族

任务建立阶段的指令编辑：sources/2026-04-14-instructpix2pix
数据集驱动的统一编辑器：sources/2026-04-12-anyedit
强调精度与灵活性的成熟扩散编辑：sources/2026-04-14-diffeditor
区域感知 / 多模态 grounding：sources/2026-04-12-fireedit、sources/2026-04-12-insightedit
强调效率的一步式编辑：sources/2026-04-12-swiftedit
把编辑重写为连续视频路径：sources/2026-04-14-pathways-image-manifold
真实图像 inversion 机制：sources/2026-04-14-null-text-inversion
exemplar-based 编辑接口：sources/2026-04-14-paint-by-example
主体驱动路线向视频侧延伸：sources/2026-04-14-dive-subject-driven-video-editing
视频编辑数据构造反向启发图像编辑：sources/2026-04-14-insvie-1m
图像扩散迁移到视频编辑：sources/2026-04-14-pix2video
扩散时代真实图像编辑早期锚点：sources/2026-04-14-imagic
MM-DiT attention 注入编辑：sources/2026-04-14-qk-edit
视频先验反向服务图像编辑：sources/2026-04-14-framepainter
prompt-level inversion 路线：sources/2026-04-14-prompt-tuning-inversion
inversion 加速路线：sources/2026-04-14-effective-real-image-editing
prompt-only cross-attention 编辑控制：sources/2026-04-16-prompt-to-prompt
LLM controller 闭环编辑：sources/2026-04-16-self-correcting-llm-controlled-diffusion-models

证据基础

后续值得追踪的问题

questions/question-data-vs-architecture-in-image-editing — 当前图像编辑性能提升究竟主要来自数据扩展还是架构升级。
questions/question-will-unified-image-models-sustain-their-advantage — 统一图像生成编辑模型能否持续压过专用流水线。
当前图像编辑的进步，到底更多来自更好的数据，还是更好的架构？
哪类方法最能平衡“保留原图”与“执行修改”的矛盾？
一步式编辑在哪些任务上仍有竞争力，又会在哪些复杂编辑上失效？

图像编辑

图像编辑

概述

当前综合判断

跨年份阶段性演化小结

当前阶段结论

方法家族

相关实体

证据基础

后续值得追踪的问题

相关页面

Metadata