Video-Bench（CVPR 2025）：面向视频生成的人类对齐评测基准

会议：CVPR 2025

发表日期：2025-06-11

资料加入日期：2026-04-14

深分析稿：raw/ingest/2026-04-14-video-bench/analysis

一句话结论

Video-Bench 把 human-aligned benchmark 单独拉成一条主线，说明视频生成评测已经不再满足于纯自动指标，而开始围绕人类偏好、条件对齐和多维质量构建新的评测协议。

论文定位

这篇论文是“human preference aligned benchmark”路线里的代表作。它最重要的贡献是重做评测协议，而不是单纯增加一个新分数。

问题定义

作者指出视频生成评测存在几种结构性不足：

自动指标和真实人类偏好常常不一致
只看视觉质量不足以评估视频条件对齐
让 MLLM 直接粗粒度打总分也不稳定

因此需要一个更贴近 human preference 的多维 benchmark。

方法概述

Video-Bench 有三层关键设计：

两大评测维度

将评测拆成 Video Quality 与 Video-Condition Alignment 两大类，再细分成多个子维度。

human-preference-aligned benchmark

通过人工偏好/标注设计，让评测标准更接近真实人类判断。

chain-of-query + few-shot scoring

用 query decomposition 与 few-shot calibration 稳定 MLLM 评测流程，使其更可解释、更稳定。

关键发现

benchmark 本身可以通过方法设计更接近人类偏好，而不只是依赖人工总评。
条件对齐评测与感知质量评测需要同时存在。
直接让 MLLM 打总分不够，query 设计和 scoring calibration 都很重要。
这篇论文让“human-aligned evaluation”变成了可执行协议，而不是口号。

关键图示

Video-Bench 总览图

!900

这一页展示 benchmark 的两大评测维度以及 human-aligned 的整体设计，是 source note 最适合的首图。

Chain-of-query 与 few-shot scoring 方法图

!900

这一页解释 Video-Bench 如何通过 chain-of-query 和 few-shot scoring 稳定 MLLM 的评测过程，是理解其“人类偏好对齐机制”的关键方法图。

主结果与人工对齐证据

!900

这一页同时包含多模型结果表和 human vs. MLLM 对照案例，是说明 benchmark 实际有效性的关键证据页。

核心实验与结果

Video-Bench 给出了多维度、多模型的系统评测结果。
结果页说明它不仅能区分模型优劣，还能在多个维度上更贴近人类偏好。
chain-of-query 与 few-shot scoring 共同构成其方法优势。
这篇论文使“human-aligned video benchmark”从概念变成了有方法和结果支撑的评测路线。

局限或疑问

human-aligned 不等于真实任务理解。
更贴近人类偏好，不代表已经覆盖所有用户价值与复杂任务完成度。
它补的是评测协议层，不是对生成模型本身的直接改进。

对当前 wiki 判断的影响

它显著补强了 topics/generative-model-evaluation 中“评测协议本身也在快速进化”这条判断。
对 questions/question-do-benchmarks-track-real-video-editing-understanding 来说，它提供了一条和 AIGV-Assessor、Neuro-Symbolic Evaluation 不同的第三种评测立场：人类偏好对齐。
这篇论文让我们更清楚地把“感知质量评测、human alignment、任务理解评测”区分开来。

原始链接

https://arxiv.org/abs/2504.04907
https://arxiv.org/pdf/2504.04907.pdf

Video-Bench（CVPR 2025）：面向视频生成的人类对齐评测基准

Video-Bench（CVPR 2025）：面向视频生成的人类对齐评测基准

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

Video-Bench 总览图

Chain-of-query 与 few-shot scoring 方法图

主结果与人工对齐证据

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

Metadata