QK-Edit(ICCV 2025):在 MM-DiT 中重新审视图像与视频编辑的 attention 注入
会议:ICCV 2025
发表日期:2025-01-01
资料加入日期:2026-04-14
一句话结论
这篇工作把 MM-DiT 时代的 attention-based editing 机制单独拎出来重做,补上了图像/视频编辑进入多模态 DiT 主干后的关键方法节点。
问题定义
它要解决的是传统 U-Net 时代常见的 attention manipulation 方法在 MM-DiT 框架下失效的问题。对当前知识库来说,它补的是统一图像/视频编辑系统在新主干上如何继续保持可编辑性的关键路线。
方法概述
QK-Edit 提出 training-free 的 query-key manipulation 策略,利用 MM-DiT 的多模态自注意力动态,在推理阶段实现文本引导的图像与视频编辑,强调在 prompt fidelity 与结构一致性之间取得平衡。
关键发现
- 它说明进入 MM-DiT 时代后,编辑方法并没有消失,而是在 attention 注入机制层面发生了重写。
- 它把 image-editing 与 video-editing 再次拉到同一技术接口上,强化了统一生成-编辑主线。
- 它也为之后分析 DiT/MM-DiT 是否真的会成为默认可扩展编辑主干提供了强证据。
局限或疑问
- 它更偏机制层创新,不直接回答数据构造问题。
- training-free 注入策略的泛化边界还需要更多模型和任务验证。
- 它强化了编辑可行性,但不等于已经解决更高层的编辑理解问题。
原始链接
- https://openaccess.thecvf.com/content/ICCV2025/html/Shen_QK-Edit_Revisiting_Attention-based_Injection_in_MM-DiT_for_Image_and_Video_ICCV_2025_paper.html
https://openaccess.thecvf.com/content/ICCV2025/papers/Shen_QK-Edit_Revisiting_Attention-based_Injection_in_MM-DiT_for_Image_and_Video_ICCV_2025_paper.pdf
相关页面
- topics/image-editing
- topics/video-editing
- topics/image-generation
- entities/unified-image-generation-editing
- entities/video-editing-understanding
- questions/question-will-unified-image-models-sustain-their-advantage
- questions/question-do-benchmarks-track-real-video-editing-understanding
备注
QK-Edit 在这套库里的作用,是把 MM-DiT 时代的统一图像/视频编辑机制补成明确节点。