Video-Bench(CVPR 2025):面向视频生成的人类对齐评测基准
会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:2026-04-14
深分析稿:raw/ingest/2026-04-14-video-bench/analysis
一句话结论
Video-Bench 把 human-aligned benchmark 单独拉成一条主线,说明视频生成评测已经不再满足于纯自动指标,而开始围绕人类偏好、条件对齐和多维质量构建新的评测协议。
论文定位
这篇论文是“human preference aligned benchmark”路线里的代表作。它最重要的贡献是重做评测协议,而不是单纯增加一个新分数。
问题定义
作者指出视频生成评测存在几种结构性不足:
- 自动指标和真实人类偏好常常不一致
- 只看视觉质量不足以评估视频条件对齐
- 让 MLLM 直接粗粒度打总分也不稳定
因此需要一个更贴近 human preference 的多维 benchmark。
方法概述
Video-Bench 有三层关键设计:
- 两大评测维度
将评测拆成 Video Quality 与 Video-Condition Alignment 两大类,再细分成多个子维度。
- human-preference-aligned benchmark
通过人工偏好/标注设计,让评测标准更接近真实人类判断。
- chain-of-query + few-shot scoring
用 query decomposition 与 few-shot calibration 稳定 MLLM 评测流程,使其更可解释、更稳定。
关键发现
- benchmark 本身可以通过方法设计更接近人类偏好,而不只是依赖人工总评。
- 条件对齐评测与感知质量评测需要同时存在。
- 直接让 MLLM 打总分不够,query 设计和 scoring calibration 都很重要。
- 这篇论文让“human-aligned evaluation”变成了可执行协议,而不是口号。
关键图示
Video-Bench 总览图
!900
这一页展示 benchmark 的两大评测维度以及 human-aligned 的整体设计,是 source note 最适合的首图。
Chain-of-query 与 few-shot scoring 方法图
!900
这一页解释 Video-Bench 如何通过 chain-of-query 和 few-shot scoring 稳定 MLLM 的评测过程,是理解其“人类偏好对齐机制”的关键方法图。
主结果与人工对齐证据
!900
这一页同时包含多模型结果表和 human vs. MLLM 对照案例,是说明 benchmark 实际有效性的关键证据页。
核心实验与结果
- Video-Bench 给出了多维度、多模型的系统评测结果。
- 结果页说明它不仅能区分模型优劣,还能在多个维度上更贴近人类偏好。
- chain-of-query 与 few-shot scoring 共同构成其方法优势。
- 这篇论文使“human-aligned video benchmark”从概念变成了有方法和结果支撑的评测路线。
局限或疑问
- human-aligned 不等于真实任务理解。
- 更贴近人类偏好,不代表已经覆盖所有用户价值与复杂任务完成度。
- 它补的是评测协议层,不是对生成模型本身的直接改进。
对当前 wiki 判断的影响
- 它显著补强了
topics/generative-model-evaluation中“评测协议本身也在快速进化”这条判断。 - 对
questions/question-do-benchmarks-track-real-video-editing-understanding来说,它提供了一条和 AIGV-Assessor、Neuro-Symbolic Evaluation 不同的第三种评测立场:人类偏好对齐。 - 这篇论文让我们更清楚地把“感知质量评测、human alignment、任务理解评测”区分开来。
相关页面
- topics/generative-model-evaluation
- topics/video-generation
- topics/video-editing
- entities/video-editing-understanding
- claims/claim-current-models-still-struggle-to-understand-video-editing
- questions/question-do-benchmarks-track-real-video-editing-understanding
原始链接
- https://arxiv.org/abs/2504.04907
- https://arxiv.org/pdf/2504.04907.pdf