ArticleMetadataMain page

source · 2026-04-15

Shape-aware Text-driven Layered Video Editing(CVPR 2023):形状感知的分层文本视频编辑

Shape-aware Text-driven Layered Video Editing(CVPR 2023):形状感知的分层文本视频编辑

会议:CVPR 2023
发表日期:2023/01/30
资料加入日期:2026-04-14

一句话结论

这篇工作把分层视频编辑和 shape-aware 控制结合起来,补上了视频编辑里的 layered composition 路线。

问题定义

它要解决的是视频编辑中对象与背景、前景层级难以稳定拆分和控制的问题。对当前知识库来说,它补的是 video-editing 在 compositional / layered control 方向上的明显缺口。

方法概述

该工作通过 shape-aware 的分层建模实现 text-driven layered video editing,让不同层次的内容能在编辑中更稳定地被区分与控制。

关键发现

  • 它说明视频编辑主线里除了 motion、一致性、效率之外,还有层级分解与局部组合控制这条路线。
  • 它为以后分析 object/background disentanglement 在视频编辑中的作用提供了更清楚的样本。
  • 它与 FramePainter、Pix2Video、Video-P2P 等路线互补,强调的是分层结构控制而不是纯 attention 注入。

局限或疑问

  • 分层建模本身会带来系统复杂度。
  • shape-aware 分解是否泛化到复杂场景仍需更多证据。
  • 它是分支补厚节点,不代表统一接口最终形态。

原始链接

  • https://arxiv.org/abs/2301.13173
  • https://arxiv.org/pdf/2301.13173

相关页面

备注

这篇工作在库里的作用,是把 layered/compositional video editing 路线补成明确分支。