ArticleMetadataMain page

source · 2026-04-15

FateZero(ICCV 2023):融合注意力做零样本文本视频编辑

FateZero(ICCV 2023):融合注意力做零样本文本视频编辑

会议:ICCV 2023
发表日期:2023-01-01
资料加入日期:2026-04-14

一句话结论

这篇工作是早期文本驱动视频编辑的重要锚点,说明零样本 attention 注入就能把图像扩散编辑思路迁移到视频上。

问题定义

它要解决的是视频编辑需要重新训练成本高、跨帧一致性难保持的问题。相比更重型的专门训练路线,FateZero 代表的是早期“能否尽量少训练就把视频编辑做出来”的方向。

方法概述

方法核心是通过融合注意力,把文本驱动编辑控制注入到视频扩散过程中,并在零样本设定下尽量保持跨帧一致性。它的重要意义在于:早期视频编辑并不是先靠大规模数据,而是先靠 clever attention manipulation 把路线跑通。

关键发现

  • 它提供了 video-editing 的早期历史锚点。
  • 它说明 attention 控制本身是视频编辑里一个重要可迁移机制。
  • 它有助于把当前视频编辑路线往 2023 年回溯,而不是只看 2025 一年的成熟系统。

局限或疑问

  • 零样本路线的上限通常受限于原始生成模型能力。
  • 复杂编辑与强时序保持仍然困难。
  • 它更像奠基性方法,而不是当前最终形态。

原始链接

  • https://arxiv.org/abs/2303.09535
  • https://arxiv.org/pdf/2303.09535.pdf

相关页面

备注

FateZero 在这套知识库里最重要的价值是历史定位:它说明视频编辑主线很早就已经围绕 attention control 与一致性问题展开。