图像编辑的进步主要来自数据扩展还是架构升级

问题

当前图像编辑方向里的性能提升，到底主要来自更大、更干净、覆盖更广的编辑数据，还是来自更强的架构设计、表示分配与多模态控制接口？这个问题并不只是技术归因；它会直接决定后续研究更应该押注数据工厂、主干改造、推理接口，还是这几者的协同设计。

这个问题现在为什么变得更重要

topics/image-editing 已经不再是一条单线升级路线，而是同时出现了数据工厂、区域 grounding、统一接口、低时延编辑、视频化架构重写等多股力量。随着这几条路线都开始拿出看起来显著的提升，单纯说“又变好了”已经不够；更关键的是要判断改进到底来自哪一层，才能知道哪些增益具有可迁移性，哪些只是局部工程套利。

当前证据在说什么

更偏向“数据先打开上限”

sources/2026-04-14-instructpix2pix 很早就说明，instruction-based image editing 能成立，本身就强依赖合成 supervision 与任务定义。
sources/2026-04-12-anyedit 把高质量多任务编辑数据和任务组织推到主线前台，说明数据覆盖面仍然是统一编辑系统最稳的杠杆。
sources/2026-04-12-insightedit 进一步证明，光有任务定义不够，数据质量、指令复杂度与背景保持监督都会显著影响最终表现。

更偏向“架构决定能不能把数据兑现出来”

sources/2026-04-12-fireedit 说明局部 grounding 与区域感知控制不是简单喂更多数据就能自然长出来，架构接口本身在决定编辑精度。
sources/2026-04-14-diffeditor 代表的是通过编辑机制、采样设计与局部约束来提升效果的路线。
sources/2026-04-12-d2it 与 sources/2026-04-14-motionstone 都说明，哪怕不改变任务定义，主干内部的表示分配与结构调制也能单独形成强增益。
sources/2026-04-14-pathways-image-manifold 更激进：它不是优化原问题，而是把图像编辑直接重写成视频生成式的连续路径问题。

更像“数据与架构共同重写任务”

sources/2026-04-12-dreamomni 说明统一训练与 synthetic data pipeline 往往是一起出现的，难以拆成纯数据或纯架构因素。
sources/2026-04-12-swiftedit 说明当速度成为核心目标时，数据监督、蒸馏目标和一步式架构会紧密耦合，不能单独理解。

为什么还没有被真正解决

现在的大多数论文并不是在做干净的归因实验，而是在同时改：数据来源、任务拆分、模型主干、控制接口、训练损失和推理预算。也就是说，我们已经有很多“混合成功案例”，但还缺少足够多“同数据换架构”或“同架构换数据”的强对照证据。因此，当前更适合做结构化判断，而不适合下二选一结论。

阶段性综合判断

基于当前已经编译进 wiki 的证据，这个问题最稳的阶段性答案是：数据扩展仍然是图像编辑进步最稳定的地基，但架构升级越来越决定这些数据能否转化成可见的编辑质量、控制精度与副作用治理。

换句话说，数据更像“决定上限有没有被打开”，架构更像“决定这些上限能否被兑现”。在早期任务建立阶段，数据和监督设计的重要性最突出；但到了当前这轮竞争里，真正拉开差距的已经不是简单多收一点数据，而是能否把编辑问题重写成模型更擅长学习的结构问题，例如区域 grounding、主干内部调制、甚至跨任务借用视频生成路径。

当前更倾向的结论

短期内，继续做高质量数据与任务构造，仍然是最稳的收益来源。
但中期真正会把系统拉开差距的，往往是“能否把新增监督转成更强结构归纳”的架构设计。
因此这条 question 目前不支持“数据胜出”或“架构胜出”的简单结论；更合理的说法是：图像编辑已经进入数据工程与架构改写强耦合的阶段。

下一步最有价值的证据

同一 benchmark 下的“同架构不同数据”对照。
同一数据预算下的“同数据不同架构 / 不同控制接口”对照。
同时报告指令跟随、背景保持、局部精度与推理成本的系统级评测。
能明确回答“任务重写本身是不是比继续堆数据更值钱”的新工作。