QK-Edit（ICCV 2025）：在 MM-DiT 中重新审视图像与视频编辑的 attention 注入

会议：ICCV 2025

发表日期：2025-01-01

资料加入日期：2026-04-14

一句话结论

这篇工作把 MM-DiT 时代的 attention-based editing 机制单独拎出来重做，补上了图像/视频编辑进入多模态 DiT 主干后的关键方法节点。

问题定义

它要解决的是传统 U-Net 时代常见的 attention manipulation 方法在 MM-DiT 框架下失效的问题。对当前知识库来说，它补的是统一图像/视频编辑系统在新主干上如何继续保持可编辑性的关键路线。

方法概述

QK-Edit 提出 training-free 的 query-key manipulation 策略，利用 MM-DiT 的多模态自注意力动态，在推理阶段实现文本引导的图像与视频编辑，强调在 prompt fidelity 与结构一致性之间取得平衡。

关键发现

它说明进入 MM-DiT 时代后，编辑方法并没有消失，而是在 attention 注入机制层面发生了重写。
它把 image-editing 与 video-editing 再次拉到同一技术接口上，强化了统一生成-编辑主线。
它也为之后分析 DiT/MM-DiT 是否真的会成为默认可扩展编辑主干提供了强证据。

局限或疑问

它更偏机制层创新，不直接回答数据构造问题。
training-free 注入策略的泛化边界还需要更多模型和任务验证。
它强化了编辑可行性，但不等于已经解决更高层的编辑理解问题。

原始链接

https://openaccess.thecvf.com/content/ICCV2025/html/Shen_QK-Edit_Revisiting_Attention-based_Injection_in_MM-DiT_for_Image_and_Video_ICCV_2025_paper.html

https://openaccess.thecvf.com/content/ICCV2025/papers/Shen_QK-Edit_Revisiting_Attention-based_Injection_in_MM-DiT_for_Image_and_Video_ICCV_2025_paper.pdf

备注

QK-Edit 在这套库里的作用，是把 MM-DiT 时代的统一图像/视频编辑机制补成明确节点。

Metadata

{ "id": "2026-04-14-qk-edit", "type": "source", "title": "QK-Edit（ICCV 2025）：在 MM-DiT 中重新审视图像与视频编辑的 attention 注入", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-15", "venue": "ICCV 2025", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "image-editing", "video-editing", "image-generation", "control", "diffusion", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Tiancheng Shen", "Zilong Huang", "Xiangtai Li", "Zhijie Lin", "Jiyang Liu", "Yitong Wang", "Jiashi Feng", "Ming-Hsuan Yang", "Jun Hao Liew" ], "published_at": "2025-01-01", "canonical_links": [ "https://openaccess.thecvf.com/content/ICCV2025/html/Shen_QK-Edit_Revisiting_Attention-based_Injection_in_MM-DiT_for_Image_and_Video_ICCV_2025_paper.html" ], "https": "//openaccess.thecvf.com/content/ICCV2025/papers/Shen_QK-Edit_Revisiting_Attention-based_Injection_in_MM-DiT_for_Image_and_Video_ICCV_2025_paper.pdf", "raw_entry": "raw/ingest/2026-04-14-qk-edit/", "topics": [ "topics/image-editing", "topics/video-editing", "topics/image-generation" ], "entities": [ "entities/unified-image-generation-editing", "entities/video-editing-understanding" ], "claims": [], "questions": [ "questions/question-will-unified-image-models-sustain-their-advantage", "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }