FADE(CVPR 2025):面向视频编辑的频率感知扩散模型分解
会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:"2026-04-12"
一句话结论
这篇工作认为,即使不重新训练模型,视频编辑依然可以很强,前提是把预训练视频扩散模型内部先验按功能拆开,并用频域感知方式调制采样轨迹。
问题定义
它要解决的是视频编辑中如何在保持时空结构的同时完成有效修改,尤其要避免信息泄漏、闪烁和原始结构被破坏。
方法概述
方法上,它分析视频模型内部注意力与表示模式,将不同成分按角色分解,再在采样过程中加入频谱引导调制。核心逻辑是:不必重训,也能通过更理解模型内部结构来获得更稳的编辑。
关键发现
- training-free 编辑在视频侧依然是一条很强的路线。
- 频域线索被用来减少信息泄漏并稳定编辑结果。
- 方法显式强调在编辑时保留基础时空结构,而不是只追求表面改动。
局限或疑问
- training-free 方法在高难编辑上可能仍弱于经过调优的模型。
- 内部成分可解释不等于在复杂场景下一定更稳。
- 还需要与奖励调优和 inversion-heavy 路线做正面对比。
原始链接
- https://openaccess.thecvf.com/content/CVPR2025/html/Zhu_FADE_Frequency-Aware_Diffusion_Model_Factorization_for_Video_Editing_CVPR_2025_paper.html
- https://openaccess.thecvf.com/content/CVPR2025/papers/Zhu_FADE_Frequency-Aware_Diffusion_Model_Factorization_for_Video_Editing_CVPR_2025_paper.pdf
相关页面
- topics/video-editing
- topics/video-generation
- topics/diffusion-models
- topics/generative-model-evaluation
备注
FADE 很值得保留,因为它代表了一种不同于“重新训练更强模型”的工程哲学:通过理解已有视频扩散先验内部的结构分工,也能获得有竞争力的视频编辑能力。这让 vault 里的视频编辑路线不至于只剩下调参与重训两种思路。