ArticleMetadataMain page

source · 2026-04-15

VideoCrafter2(CVPR 2024):突破数据限制的高质量视频扩散模型

VideoCrafter2(CVPR 2024):突破数据限制的高质量视频扩散模型

会议:CVPR 2024
发表日期:2024-01-01
资料加入日期:2026-04-14

一句话结论

这篇工作表明,即使社区拿不到商业级高质量视频数据,也可以通过更聪明的训练策略与高质量图像补充,把视频扩散模型往更高质量方向推进。

问题定义

它要解决的是公开视频训练集质量不够高,导致社区视频生成模型始终难以逼近商业系统质量的问题。相比早期“能不能做视频生成”,它更关注“在数据条件受限下,怎样把视频质量真正拉起来”。

方法概述

论文研究由 Stable Diffusion 扩展出的视频模型训练方案,分析时空模块与低质量视频分布之间的耦合关系,再通过高质量图像微调空间模块,把整体分布往更高质量方向拉而不明显伤害运动能力。这个方法同时把数据问题和结构耦合问题摆到台面上。

关键发现

  • 它提供了很强的数据侧证据:训练数据质量确实会限制视频扩散模型上限。
  • 但它又不是简单堆更多视频,而是通过模块耦合分析和训练策略设计把图像质量迁移进视频模型。
  • 它适合放进 video-generation 主线,也适合帮助 evaluation 页面理解“为什么高质量结果难得”。

局限或疑问

  • 它主要面向视频生成质量,不直接回答视频编辑理解问题。
  • 论文更偏训练方案与分布迁移,仍需和更强调控制或推理的路线对读。
  • 它说明数据质量重要,但也说明结构耦合设计同样关键。

原始链接

  • https://arxiv.org/abs/2401.09047
  • https://arxiv.org/pdf/2401.09047.pdf

相关页面

备注

VideoCrafter2 对当前 wiki 的价值,是把“视频质量差只是模型太弱”这件事改写成更具体的问题:数据分布、模块耦合和训练策略其实共同决定上限。