SketchVideo：基于草图的视频生成与编辑

一句话结论

SketchVideo 说明专用控制接口仍然非常有生命力：围绕草图这一高强度结构控制模态构建系统，在视频生成与视频编辑场景里可以形成统一模型难以快速替代的真实交互优势。

论文定位

这篇论文是“强控制接口优先”路线的代表作。它的重点不是统一一切任务，而是把草图这一结构化输入做成视频生成与编辑的核心入口。

问题定义

当用户能给出比文本更明确的结构信号时，系统如何：

精确跟随草图结构
保持结果外观真实
维持跨帧时序一致性

这篇论文的竞争点在于接口设计，而不是大而全的统一模型叙事。

方法概述

SketchVideo 的核心可概括为三点：

草图作为显式控制接口

直接利用 sketch 约束视频中的对象结构和布局。

同时覆盖生成与编辑

不只做 sketch-to-video，也覆盖 sketch-based video editing。

结构、外观与时序一致性协同

方法设计不仅要求结果跟随草图，还要求视频在时间上稳定可看。

关键发现

某些场景下，“更强的控制模态”本身就是核心竞争力。
统一模型未必总是最佳接口，草图控制路线仍有很强现实价值。
这篇论文为统一路线提供了重要反向证据：产品化竞争也可能来自控制接口深挖。

关键图示

首页总览图

!900

这一页最适合解释论文做什么：草图如何同时服务视频生成与视频编辑，并给出代表性案例。

方法总览图

!900

这一页是方法核心图，展示草图条件如何进入模型，以及结构控制、外观控制和时序一致性如何联合建模。

主结果页

!900

这一页集中展示 sketch-based generation 与 controllable editing 结果，是说明其交互价值的关键证据页。

核心实验与结果

SketchVideo 在多个结果页上展示了草图驱动下稳定的视频生成与编辑效果。
同一草图可以驱动多个不同但结构一致的结果，说明结构约束与多样性可以并存。
论文还给出了消融、用户研究和失败案例，表明这条路线已经有相对成熟的验证链路。

局限或疑问

这条路线主要服务草图控制这一专门场景，不能直接外推到所有生成编辑任务。
它提供的是“强交互控制接口”的证据，而不是对统一模型的全面否定。
草图输入门槛更高，也可能限制更广泛用户群的采用。

对当前 wiki 判断的影响

它显著补强了 questions/question-will-unified-image-models-sustain-their-advantage：统一模型之外，强控制接口路线同样有很强竞争力。
它也让 topics/video-generation 与 topics/video-editing 增加了一条更偏产品交互的分支。
对 entities/unified-image-generation-editing 来说，它是一个很好的反向样本，提醒我们接口本身也是系统能力边界的一部分。

原始链接

https://arxiv.org/abs/2503.23284
https://arxiv.org/pdf/2503.23284.pdf

SketchVideo基于草图的视频生成与编辑

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

首页总览图

方法总览图

主结果页

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

元数据