图像编辑
概述
这一页聚焦图像编辑方向。当前可以看到的主线包括:更高质量的数据集仍然是性能提升的重要来源;更细粒度的编辑正在越来越依赖视觉-语言 grounding;模型除了“改得对”之外,也越来越强调“保持原图身份与背景一致”;另外,一步式扩散编辑正在把速度推成一个新的竞争维度。
当前综合判断
sources/2026-04-12-anyedit、sources/2026-04-12-fireedit、sources/2026-04-12-omnigen、sources/2026-04-12-dreamomni、sources/2026-04-12-insightedit、sources/2026-04-12-swiftedit、sources/2026-04-12-unireal 与 sources/2026-04-14-pathways-image-manifold 这三轮按“深分析 + 提图 + 再编译”重做后,也把 image-editing 主线的内部分工看得更清楚了:AnyEdit 更像数据与任务组织驱动的统一编辑系统;FireEdit 代表区域感知 grounding 与 diffusion-stage control 的强架构路线;OmniGen 把编辑收进统一图像接口;DreamOmni 把编辑进一步纳入 synthetic data pipeline 与联合训练协同;InsightEdit 把高质量数据与 MLLM 双流桥接合在一起;SwiftEdit 把近实时一步编辑拉到主线前台;UniReal 与 Pathways 则把编辑重写到真实世界动态和视频生成框架中。这让当前 image-editing 更像多股力量同时竞争的主线:数据工厂、局部 grounding、统一接口、联合训练、推理桥接、低时延编辑、世界动态建模、视频化架构重写。
sources/2026-04-16-blended-diffusion 把这条线往前补到了 diffusion natural-image editing 的更早起点,说明后来的 instruction editing、benchmark-aware editing 和统一式 editing 系统,并不是凭空冒出来的,而是接在更早的真实图像扩散编辑实践上。
sources/2026-04-16-diffusionclip、sources/2026-04-16-plug-and-play-diffusion-features、sources/2026-04-16-edict-exact-diffusion-inversion、sources/2026-04-16-bbdm-brownian-bridge-diffusion、sources/2026-04-16-prompt-to-prompt 与 sources/2026-04-16-self-correcting-llm-controlled-diffusion-models 进一步把这条前史补厚成几条并行支线:文本引导操控、feature-level plug-and-play、精确 inversion、bridge-style image-to-image translation、基于 cross-attention 的 prompt-only 编辑控制,以及 LLM controller 驱动的闭环自纠错编辑。
sources/2026-04-14-contrastive-denoising-score 也进一步补厚了 image-editing 里的机制层优化路线。
sources/2026-04-14-customization-assistant 也说明 image-editing 已开始延伸到更面向用户工作流的定制辅助系统。
sources/2026-04-14-concept-weaver 也让 image-editing 对复杂多概念组合场景的覆盖更完整。
sources/2026-04-14-multi-concept-customization 和 sources/2026-04-14-image-specific-prompt-learning 也让 image-editing 对个性化组合与提示层适配的覆盖更完整。
sources/2026-04-14-imagic 把扩散时代真实图像文本编辑的更早起点补了回来,让后续 inversion 路线有了更清楚的前史。
sources/2026-04-14-pix2video 也进一步说明,图像编辑能力迁移到视频侧本身就是近三年非常重要的外溢路线。
再补入 sources/2026-04-14-qk-edit、sources/2026-04-14-insvie-1m、sources/2026-04-14-framepainter 和 sources/2026-04-14-dive-subject-driven-video-editing 后,可以看到图像编辑近三年还在沿着 MM-DiT attention 注入、视频编辑数据构造、视频先验反向借模和主体驱动跨模态扩张继续演化。
再补入 sources/2026-04-14-effective-real-image-editing、sources/2026-04-14-prompt-tuning-inversion、sources/2026-04-14-framepainter 和 sources/2026-04-14-dive-subject-driven-video-editing 后,可以看到图像编辑近三年还沿着 inversion 加速、prompt-level inversion、视频先验反向借模与主体驱动跨到视频侧这几条线继续扩张。
再补上 sources/2026-04-14-paint-by-example 和 sources/2026-04-14-null-text-inversion,可以看到这条线在近三年里还同时扩出了 exemplar-based control 与真实图像 inversion 机制两条重要分支。
sources/2026-04-14-anydoor 进一步说明,近三年图像编辑/生成融合的另一个方向是对象级局部定制,而不只是全局 instruction editing。
跨年份证据把这条线补得更完整了。早期的 sources/2026-04-14-instructpix2pix 把 instruction-based image editing 正式建立成一个清晰任务,并强烈依赖合成数据构造;到 sources/2026-04-14-diffeditor,性能提升又明显转向更细的编辑机制、采样策略与局部约束。结合现有 2025 证据看,image-editing 的演化并不是单纯换模型,而是从“先把任务定义出来”逐步走向“把编辑做得更准、更稳、更灵活”。第一,数据质量仍然是瓶颈:sources/2026-04-12-anyedit 和 sources/2026-04-12-insightedit 都把更高质量、更复杂的编辑数据视为性能关键。第二,更强的指令跟随越来越依赖多模态 grounding,例如 sources/2026-04-12-fireedit 和 sources/2026-04-12-insightedit 中的区域感知或双流设计。第三,编辑范式本身也在被重写,sources/2026-04-14-pathways-image-manifold 直接把图像编辑转成视频生成式的连续过程。第四,可控性不再只是语义正确,还包括保留原图身份和背景一致性。第五,编辑速度正在成为明确竞争方向,sources/2026-04-12-swiftedit 就把一步式扩散推向接近实时场景。
跨年份阶段性演化小结
如果把当前已编译证据按时间排开,这条主线大致可以分成三个阶段。第一阶段是 任务建立期:sources/2026-04-14-instructpix2pix 让“图像 + 指令 → 编辑结果”成为一个可规模化训练的问题,奠定了 instruction-based image editing 的基本接口。第二阶段是 能力校准期:像 sources/2026-04-14-diffeditor 这样的工作开始聚焦编辑精度、局部控制、灵活采样和复杂操作组合,说明研究重心已经从“能不能做编辑”转向“怎样把编辑做准”。第三阶段则是 系统整合期:到 sources/2026-04-12-anyedit、sources/2026-04-12-insightedit、sources/2026-04-14-pathways-image-manifold 这一层,路线开始分化成数据驱动统一系统、多模态 grounding、以及把编辑问题重写到视频生成路径上的更强结构方案。
这条演化链说明,image-editing 并不是简单沿着单一模型家族线性升级,而是在三个维度上同时推进:任务接口越来越统一,局部编辑机制越来越精细,跨任务借模越来越激进。也正因为如此,现在再看“数据 vs 架构”这类问题,已经不能停留在单点方法比较,而要把不同年份的研究目标变化一起看进去。
当前阶段结论
- 2023 年更像是在建立 instruction-based image editing 这个任务本身。
- 2024 年开始明显进入“提升精度、灵活性与局部控制”的成熟优化期。
- 到当前 2025 语境里,竞争已经升级成“数据设计、统一框架、多模态 grounding、跨任务重写”之间的系统级竞争。
方法家族
- 任务建立阶段的指令编辑:sources/2026-04-14-instructpix2pix
- 数据集驱动的统一编辑器:sources/2026-04-12-anyedit
- 强调精度与灵活性的成熟扩散编辑:sources/2026-04-14-diffeditor
- 区域感知 / 多模态 grounding:sources/2026-04-12-fireedit、sources/2026-04-12-insightedit
- 强调效率的一步式编辑:sources/2026-04-12-swiftedit
- 把编辑重写为连续视频路径:sources/2026-04-14-pathways-image-manifold
- 真实图像 inversion 机制:sources/2026-04-14-null-text-inversion
- exemplar-based 编辑接口:sources/2026-04-14-paint-by-example
- 主体驱动路线向视频侧延伸:sources/2026-04-14-dive-subject-driven-video-editing
- 视频编辑数据构造反向启发图像编辑:sources/2026-04-14-insvie-1m
- 图像扩散迁移到视频编辑:sources/2026-04-14-pix2video
- 扩散时代真实图像编辑早期锚点:sources/2026-04-14-imagic
- MM-DiT attention 注入编辑:sources/2026-04-14-qk-edit
- 视频先验反向服务图像编辑:sources/2026-04-14-framepainter
- prompt-level inversion 路线:sources/2026-04-14-prompt-tuning-inversion
- inversion 加速路线:sources/2026-04-14-effective-real-image-editing
- prompt-only cross-attention 编辑控制:sources/2026-04-16-prompt-to-prompt
- LLM controller 闭环编辑:sources/2026-04-16-self-correcting-llm-controlled-diffusion-models
相关实体
- entities/unified-image-generation-editing 把图像编辑与图像生成合并到统一多任务系统的趋势串了起来。
证据基础
- sources/2026-04-12-anyedit
- sources/2026-04-12-fireedit
- sources/2026-04-12-insightedit
- sources/2026-04-12-swiftedit
- sources/2026-04-14-pathways-image-manifold
- sources/2026-04-14-instructpix2pix
- sources/2026-04-14-diffeditor
- sources/2026-04-14-imagen-editor-editbench
- sources/2026-04-14-anydoor
- sources/2026-04-14-null-text-inversion
- sources/2026-04-14-paint-by-example
- sources/2026-04-14-dive-subject-driven-video-editing
- sources/2026-04-14-insvie-1m
- sources/2026-04-14-pix2video
- sources/2026-04-14-imagic
- sources/2026-04-14-image-specific-prompt-learning
- sources/2026-04-14-concept-weaver
- sources/2026-04-14-customization-assistant
- sources/2026-04-14-contrastive-denoising-score
- sources/2026-04-16-prompt-to-prompt
- sources/2026-04-16-self-correcting-llm-controlled-diffusion-models
- sources/2026-04-14-multi-concept-customization
- sources/2026-04-14-qk-edit
- sources/2026-04-14-framepainter
- sources/2026-04-14-prompt-tuning-inversion
- sources/2026-04-14-effective-real-image-editing
- sources/2026-04-14-dreambooth
后续值得追踪的问题
- questions/question-data-vs-architecture-in-image-editing — 当前图像编辑性能提升究竟主要来自数据扩展还是架构升级。
- questions/question-will-unified-image-models-sustain-their-advantage — 统一图像生成编辑模型能否持续压过专用流水线。
- 当前图像编辑的进步,到底更多来自更好的数据,还是更好的架构?
- 哪类方法最能平衡“保留原图”与“执行修改”的矛盾?
- 一步式编辑在哪些任务上仍有竞争力,又会在哪些复杂编辑上失效?