ArticleMetadataMain page

source · 2026-04-15

FADE(CVPR 2025):面向视频编辑的频率感知扩散模型分解

FADE(CVPR 2025):面向视频编辑的频率感知扩散模型分解

会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:"2026-04-12"

一句话结论

这篇工作认为,即使不重新训练模型,视频编辑依然可以很强,前提是把预训练视频扩散模型内部先验按功能拆开,并用频域感知方式调制采样轨迹。

问题定义

它要解决的是视频编辑中如何在保持时空结构的同时完成有效修改,尤其要避免信息泄漏、闪烁和原始结构被破坏。

方法概述

方法上,它分析视频模型内部注意力与表示模式,将不同成分按角色分解,再在采样过程中加入频谱引导调制。核心逻辑是:不必重训,也能通过更理解模型内部结构来获得更稳的编辑。

关键发现

  • training-free 编辑在视频侧依然是一条很强的路线。
  • 频域线索被用来减少信息泄漏并稳定编辑结果。
  • 方法显式强调在编辑时保留基础时空结构,而不是只追求表面改动。

局限或疑问

  • training-free 方法在高难编辑上可能仍弱于经过调优的模型。
  • 内部成分可解释不等于在复杂场景下一定更稳。
  • 还需要与奖励调优和 inversion-heavy 路线做正面对比。

原始链接

  • https://openaccess.thecvf.com/content/CVPR2025/html/Zhu_FADE_Frequency-Aware_Diffusion_Model_Factorization_for_Video_Editing_CVPR_2025_paper.html
  • https://openaccess.thecvf.com/content/CVPR2025/papers/Zhu_FADE_Frequency-Aware_Diffusion_Model_Factorization_for_Video_Editing_CVPR_2025_paper.pdf

相关页面

备注

FADE 很值得保留,因为它代表了一种不同于“重新训练更强模型”的工程哲学:通过理解已有视频扩散先验内部的结构分工,也能获得有竞争力的视频编辑能力。这让 vault 里的视频编辑路线不至于只剩下调参与重训两种思路。