FateZero：融合注意力做零样本文本视频编辑

一句话结论

这篇工作是早期文本驱动视频编辑的重要锚点，说明零样本 attention 注入就能把图像扩散编辑思路迁移到视频上。

问题定义

它要解决的是视频编辑需要重新训练成本高、跨帧一致性难保持的问题。相比更重型的专门训练路线，FateZero 代表的是早期“能否尽量少训练就把视频编辑做出来”的方向。

方法概述

方法核心是通过融合注意力，把文本驱动编辑控制注入到视频扩散过程中，并在零样本设定下尽量保持跨帧一致性。它的重要意义在于：早期视频编辑并不是先靠大规模数据，而是先靠 clever attention manipulation 把路线跑通。

关键发现

它提供了 video-editing 的早期历史锚点。
它说明 attention 控制本身是视频编辑里一个重要可迁移机制。
它有助于把当前视频编辑路线往 2023 年回溯，而不是只看 2025 一年的成熟系统。

局限或疑问

零样本路线的上限通常受限于原始生成模型能力。
复杂编辑与强时序保持仍然困难。
它更像奠基性方法，而不是当前最终形态。

原始链接

https://arxiv.org/abs/2303.09535
https://arxiv.org/pdf/2303.09535.pdf

备注

FateZero 在这套知识库里最重要的价值是历史定位：它说明视频编辑主线很早就已经围绕 attention control 与一致性问题展开。

元数据

{ "id": "2026-04-14-fatezero", "type": "source", "title": "FateZero（ICCV 2023）：融合注意力做零样本文本视频编辑", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-15", "venue": "ICCV 2023", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-editing", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Chenyang Qi", "Xiaodong Cun", "Yong Zhang", "Chenyang Lei", "Xintao Wang", "Ying Shan", "Qifeng Chen" ], "published_at": "2023-01-01", "canonical_links": [ "https://arxiv.org/abs/2303.09535", "https://arxiv.org/pdf/2303.09535.pdf" ], "raw_entry": "raw/ingest/2026-04-14-fatezero/", "topics": [ "topics/video-editing", "topics/video-generation" ], "entities": [ "entities/video-editing-understanding" ], "claims": [ "claims/claim-current-models-still-struggle-to-understand-video-editing" ], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }

FateZero融合注意力做零样本文本视频编辑