VBench：面向视频生成模型的综合评测套件

一句话结论

这篇工作把综合性视频生成评测套件补进库里，显著增强了 evaluation 页对标准化评测框架的覆盖。

问题定义

它要解决的是视频生成模型缺少统一、系统、可分解能力维度的 benchmark 套件问题。对当前知识库来说，它是 EvalCrafter、Video-Bench、AIGV-Assessor 之外非常关键的标准化评测节点。

方法概述

VBench 提供一个 comprehensive benchmark suite，对视频生成模型在多个能力维度上进行系统评估，以便更标准地比较模型表现。

关键发现

它让 generative-model-evaluation 页不再只依赖 evaluator 或 human-aligned 基准，而是有了更“套件化”的标准评测路线。
它能帮助后续比较不同评测逻辑：标准化 suite、人类对齐 benchmark、LMM assessor、failure diagnosis。
它也有助于把视频生成模型能力拆成更可讨论的子维度。

局限或疑问

标准化套件未必覆盖所有真实用户需求。
它主要面向视频生成，不直接等于视频编辑理解 benchmark。
它是评测体系的重要骨架，但仍需和更细粒度任务结合。

原始链接

https://arxiv.org/abs/2311.17982
https://arxiv.org/pdf/2311.17982

备注

VBench 在这套库里的作用，是把标准化视频生成评测套件这条线补成明确节点。

元数据

{ "id": "2026-04-14-vbench", "type": "source", "title": "VBench（CVPR 2024）：面向视频生成模型的综合评测套件", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-15", "venue": "CVPR 2024", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-generation", "evaluation", "benchmarking", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Huang, Ziqi", "He, Yinan", "Yu, Jiashuo", "Zhang, Fan", "Si, Chenyang", "Jiang, Yuming", "Zhang, Yuanhan", "Wu, Tianxing", "Jin, Qingyang", "Chanpaisit, Nattapol", "Wang, Yaohui", "Chen, Xinyuan", "Wang, Limin", "Lin, Dahua", "Qiao, Yu", "Liu, Ziwei" ], "published_at": "2023/11/29", "canonical_links": [ "https://arxiv.org/abs/2311.17982", "https://arxiv.org/pdf/2311.17982" ], "raw_entry": "raw/ingest/2026-04-14-vbench/", "topics": [ "topics/generative-model-evaluation", "topics/video-generation" ], "entities": [], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }

VBench面向视频生成模型的综合评测套件