ArticleMetadataMain page

topic · 2026-04-17

图像编辑

图像编辑

概述

这一页聚焦图像编辑方向。当前可以看到的主线包括:更高质量的数据集仍然是性能提升的重要来源;更细粒度的编辑正在越来越依赖视觉-语言 grounding;模型除了“改得对”之外,也越来越强调“保持原图身份与背景一致”;另外,一步式扩散编辑正在把速度推成一个新的竞争维度。

当前综合判断

sources/2026-04-12-anyeditsources/2026-04-12-fireeditsources/2026-04-12-omnigensources/2026-04-12-dreamomnisources/2026-04-12-insighteditsources/2026-04-12-swifteditsources/2026-04-12-unirealsources/2026-04-14-pathways-image-manifold 这三轮按“深分析 + 提图 + 再编译”重做后,也把 image-editing 主线的内部分工看得更清楚了:AnyEdit 更像数据与任务组织驱动的统一编辑系统;FireEdit 代表区域感知 grounding 与 diffusion-stage control 的强架构路线;OmniGen 把编辑收进统一图像接口;DreamOmni 把编辑进一步纳入 synthetic data pipeline 与联合训练协同;InsightEdit 把高质量数据与 MLLM 双流桥接合在一起;SwiftEdit 把近实时一步编辑拉到主线前台;UniReal 与 Pathways 则把编辑重写到真实世界动态和视频生成框架中。这让当前 image-editing 更像多股力量同时竞争的主线:数据工厂、局部 grounding、统一接口、联合训练、推理桥接、低时延编辑、世界动态建模、视频化架构重写。

sources/2026-04-16-blended-diffusion 把这条线往前补到了 diffusion natural-image editing 的更早起点,说明后来的 instruction editing、benchmark-aware editing 和统一式 editing 系统,并不是凭空冒出来的,而是接在更早的真实图像扩散编辑实践上。

sources/2026-04-16-diffusionclipsources/2026-04-16-plug-and-play-diffusion-featuressources/2026-04-16-edict-exact-diffusion-inversionsources/2026-04-16-bbdm-brownian-bridge-diffusionsources/2026-04-16-prompt-to-promptsources/2026-04-16-self-correcting-llm-controlled-diffusion-models 进一步把这条前史补厚成几条并行支线:文本引导操控、feature-level plug-and-play、精确 inversion、bridge-style image-to-image translation、基于 cross-attention 的 prompt-only 编辑控制,以及 LLM controller 驱动的闭环自纠错编辑。

sources/2026-04-14-contrastive-denoising-score 也进一步补厚了 image-editing 里的机制层优化路线。

sources/2026-04-14-customization-assistant 也说明 image-editing 已开始延伸到更面向用户工作流的定制辅助系统。

sources/2026-04-14-concept-weaver 也让 image-editing 对复杂多概念组合场景的覆盖更完整。

sources/2026-04-14-multi-concept-customizationsources/2026-04-14-image-specific-prompt-learning 也让 image-editing 对个性化组合与提示层适配的覆盖更完整。

sources/2026-04-14-imagic 把扩散时代真实图像文本编辑的更早起点补了回来,让后续 inversion 路线有了更清楚的前史。

sources/2026-04-14-pix2video 也进一步说明,图像编辑能力迁移到视频侧本身就是近三年非常重要的外溢路线。

再补入 sources/2026-04-14-qk-editsources/2026-04-14-insvie-1msources/2026-04-14-framepaintersources/2026-04-14-dive-subject-driven-video-editing 后,可以看到图像编辑近三年还在沿着 MM-DiT attention 注入、视频编辑数据构造、视频先验反向借模和主体驱动跨模态扩张继续演化。

再补入 sources/2026-04-14-effective-real-image-editingsources/2026-04-14-prompt-tuning-inversionsources/2026-04-14-framepaintersources/2026-04-14-dive-subject-driven-video-editing 后,可以看到图像编辑近三年还沿着 inversion 加速、prompt-level inversion、视频先验反向借模与主体驱动跨到视频侧这几条线继续扩张。

再补上 sources/2026-04-14-paint-by-examplesources/2026-04-14-null-text-inversion,可以看到这条线在近三年里还同时扩出了 exemplar-based control 与真实图像 inversion 机制两条重要分支。

sources/2026-04-14-anydoor 进一步说明,近三年图像编辑/生成融合的另一个方向是对象级局部定制,而不只是全局 instruction editing。

跨年份证据把这条线补得更完整了。早期的 sources/2026-04-14-instructpix2pix 把 instruction-based image editing 正式建立成一个清晰任务,并强烈依赖合成数据构造;到 sources/2026-04-14-diffeditor,性能提升又明显转向更细的编辑机制、采样策略与局部约束。结合现有 2025 证据看,image-editing 的演化并不是单纯换模型,而是从“先把任务定义出来”逐步走向“把编辑做得更准、更稳、更灵活”。第一,数据质量仍然是瓶颈:sources/2026-04-12-anyeditsources/2026-04-12-insightedit 都把更高质量、更复杂的编辑数据视为性能关键。第二,更强的指令跟随越来越依赖多模态 grounding,例如 sources/2026-04-12-fireeditsources/2026-04-12-insightedit 中的区域感知或双流设计。第三,编辑范式本身也在被重写,sources/2026-04-14-pathways-image-manifold 直接把图像编辑转成视频生成式的连续过程。第四,可控性不再只是语义正确,还包括保留原图身份和背景一致性。第五,编辑速度正在成为明确竞争方向,sources/2026-04-12-swiftedit 就把一步式扩散推向接近实时场景。

跨年份阶段性演化小结

如果把当前已编译证据按时间排开,这条主线大致可以分成三个阶段。第一阶段是 任务建立期sources/2026-04-14-instructpix2pix 让“图像 + 指令 → 编辑结果”成为一个可规模化训练的问题,奠定了 instruction-based image editing 的基本接口。第二阶段是 能力校准期:像 sources/2026-04-14-diffeditor 这样的工作开始聚焦编辑精度、局部控制、灵活采样和复杂操作组合,说明研究重心已经从“能不能做编辑”转向“怎样把编辑做准”。第三阶段则是 系统整合期:到 sources/2026-04-12-anyeditsources/2026-04-12-insighteditsources/2026-04-14-pathways-image-manifold 这一层,路线开始分化成数据驱动统一系统、多模态 grounding、以及把编辑问题重写到视频生成路径上的更强结构方案。

这条演化链说明,image-editing 并不是简单沿着单一模型家族线性升级,而是在三个维度上同时推进:任务接口越来越统一,局部编辑机制越来越精细,跨任务借模越来越激进。也正因为如此,现在再看“数据 vs 架构”这类问题,已经不能停留在单点方法比较,而要把不同年份的研究目标变化一起看进去。

当前阶段结论

  • 2023 年更像是在建立 instruction-based image editing 这个任务本身。
  • 2024 年开始明显进入“提升精度、灵活性与局部控制”的成熟优化期。
  • 到当前 2025 语境里,竞争已经升级成“数据设计、统一框架、多模态 grounding、跨任务重写”之间的系统级竞争。

方法家族

相关实体

证据基础

后续值得追踪的问题

相关页面