Article Metadata Main page

source · 2026-04-15

InstructPix2Pix（CVPR 2023）：学习遵循图像编辑指令

#near-cvpr-2025 #image-editing #primary-source

InstructPix2Pix（CVPR 2023）：学习遵循图像编辑指令

会议：CVPR 2023

发表日期：2023-01-01

资料加入日期：2026-04-14

一句话结论

这篇工作把“按自然语言指令直接编辑图像”变成了一个清晰可训练的问题，是现代 instruction-based image editing 路线的重要起点。

问题定义

它要解决的是：用户希望用自然语言直接修改图像，但过去的图像编辑系统往往依赖更硬的条件形式、复杂反演或逐例调优，既慢也不够通用。InstructPix2Pix 的关键意义在于，它把图像编辑正式重写为“输入图像 + 指令 → 输出编辑结果”的统一任务。

方法概述

方法上，论文结合 GPT-3 与 Stable Diffusion 自动构造大规模图像编辑训练数据，再训练一个条件扩散模型，让它在前向推理时直接完成指令编辑。相比需要 inversion 或 per-example finetuning 的路线，它强调的是统一训练范式和快速执行能力。

关键发现

它为 instruction-based image editing 提供了非常有影响力的早期任务定义。
它的收益高度依赖合成数据构造，这让它成为“数据设计决定上限”的关键证据。
它也说明统一输入输出形式本身会改变后续方法演化。

局限或疑问

自动合成数据会把偏差与噪音一并带入模型。
早期能力虽强，但复杂局部编辑与高保真保持仍有明显不足。
它更像路线起点，不是当前性能上限。

原始链接

https://arxiv.org/abs/2211.09800
https://arxiv.org/pdf/2211.09800.pdf

相关页面

备注

在当前 wiki 里，InstructPix2Pix 的价值主要是历史定位：很多后续 instruction-based image editing 工作都可以视为在修补它留下的精度、保真度和数据质量问题。

Metadata

{
  "id": "2026-04-14-instructpix2pix",
  "type": "source",
  "title": "InstructPix2Pix（CVPR 2023）：学习遵循图像编辑指令",
  "status": "reviewed",
  "created": "2026-04-14",
  "updated": "2026-04-15",
  "venue": "CVPR 2023",
  "ingested_at": "2026-04-14",
  "tags": [
    "near-cvpr-2025",
    "image-editing",
    "primary-source"
  ],
  "note_status": "reviewed",
  "source_type": "paper",
  "authors": [
    "Tim Brooks",
    "Aleksander Holynski",
    "Alexei A. Efros"
  ],
  "published_at": "2023-01-01",
  "canonical_links": [
    "https://arxiv.org/abs/2211.09800",
    "https://arxiv.org/pdf/2211.09800.pdf"
  ],
  "raw_entry": "raw/ingest/2026-04-14-instructpix2pix/",
  "topics": [
    "topics/image-editing",
    "topics/image-generation"
  ],
  "entities": [
    "entities/unified-image-generation-editing"
  ],
  "claims": [
    "claims/claim-unified-models-may-outcompete-specialized-image-pipelines"
  ],
  "questions": [
    "questions/question-data-vs-architecture-in-image-editing"
  ]
}