Article Metadata Main page

source · 2026-04-15

VideoCrafter2（CVPR 2024）：突破数据限制的高质量视频扩散模型

#near-cvpr-2025 #video-generation #primary-source

VideoCrafter2（CVPR 2024）：突破数据限制的高质量视频扩散模型

会议：CVPR 2024

发表日期：2024-01-01

资料加入日期：2026-04-14

一句话结论

这篇工作表明，即使社区拿不到商业级高质量视频数据，也可以通过更聪明的训练策略与高质量图像补充，把视频扩散模型往更高质量方向推进。

问题定义

它要解决的是公开视频训练集质量不够高，导致社区视频生成模型始终难以逼近商业系统质量的问题。相比早期“能不能做视频生成”，它更关注“在数据条件受限下，怎样把视频质量真正拉起来”。

方法概述

论文研究由 Stable Diffusion 扩展出的视频模型训练方案，分析时空模块与低质量视频分布之间的耦合关系，再通过高质量图像微调空间模块，把整体分布往更高质量方向拉而不明显伤害运动能力。这个方法同时把数据问题和结构耦合问题摆到台面上。

关键发现

它提供了很强的数据侧证据：训练数据质量确实会限制视频扩散模型上限。
但它又不是简单堆更多视频，而是通过模块耦合分析和训练策略设计把图像质量迁移进视频模型。
它适合放进 video-generation 主线，也适合帮助 evaluation 页面理解“为什么高质量结果难得”。

局限或疑问

它主要面向视频生成质量，不直接回答视频编辑理解问题。
论文更偏训练方案与分布迁移，仍需和更强调控制或推理的路线对读。
它说明数据质量重要，但也说明结构耦合设计同样关键。

原始链接

https://arxiv.org/abs/2401.09047
https://arxiv.org/pdf/2401.09047.pdf

相关页面

备注

VideoCrafter2 对当前 wiki 的价值，是把“视频质量差只是模型太弱”这件事改写成更具体的问题：数据分布、模块耦合和训练策略其实共同决定上限。

Metadata

{
  "id": "2026-04-14-videocrafter2",
  "type": "source",
  "title": "VideoCrafter2（CVPR 2024）：突破数据限制的高质量视频扩散模型",
  "status": "reviewed",
  "created": "2026-04-14",
  "updated": "2026-04-15",
  "venue": "CVPR 2024",
  "ingested_at": "2026-04-14",
  "tags": [
    "near-cvpr-2025",
    "video-generation",
    "primary-source"
  ],
  "note_status": "reviewed",
  "source_type": "paper",
  "authors": [
    "Haoxin Chen",
    "Yong Zhang",
    "Xiaodong Cun",
    "Menghan Xia",
    "Xintao Wang",
    "Chao Weng",
    "Ying Shan"
  ],
  "published_at": "2024-01-01",
  "canonical_links": [
    "https://arxiv.org/abs/2401.09047",
    "https://arxiv.org/pdf/2401.09047.pdf"
  ],
  "raw_entry": "raw/ingest/2026-04-14-videocrafter2/",
  "topics": [
    "topics/video-generation",
    "topics/generative-model-evaluation"
  ],
  "entities": [
    "entities/diffusion-transformer"
  ],
  "claims": [
    "claims/claim-dit-is-becoming-the-default-scalable-generation-backbone"
  ],
  "questions": [
    "questions/question-do-benchmarks-track-real-video-editing-understanding"
  ]
}