ArticleMetadataMain page

source · 2026-04-17

Video-Bench(CVPR 2025):面向视频生成的人类对齐评测基准

Video-Bench(CVPR 2025):面向视频生成的人类对齐评测基准

会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:2026-04-14
深分析稿:raw/ingest/2026-04-14-video-bench/analysis

一句话结论

Video-Bench 把 human-aligned benchmark 单独拉成一条主线,说明视频生成评测已经不再满足于纯自动指标,而开始围绕人类偏好、条件对齐和多维质量构建新的评测协议。

论文定位

这篇论文是“human preference aligned benchmark”路线里的代表作。它最重要的贡献是重做评测协议,而不是单纯增加一个新分数。

问题定义

作者指出视频生成评测存在几种结构性不足:

  • 自动指标和真实人类偏好常常不一致
  • 只看视觉质量不足以评估视频条件对齐
  • 让 MLLM 直接粗粒度打总分也不稳定

因此需要一个更贴近 human preference 的多维 benchmark。

方法概述

Video-Bench 有三层关键设计:

  1. 两大评测维度
  2. 将评测拆成 Video Quality 与 Video-Condition Alignment 两大类,再细分成多个子维度。

  1. human-preference-aligned benchmark
  2. 通过人工偏好/标注设计,让评测标准更接近真实人类判断。

  1. chain-of-query + few-shot scoring
  2. 用 query decomposition 与 few-shot calibration 稳定 MLLM 评测流程,使其更可解释、更稳定。

关键发现

  • benchmark 本身可以通过方法设计更接近人类偏好,而不只是依赖人工总评。
  • 条件对齐评测与感知质量评测需要同时存在。
  • 直接让 MLLM 打总分不够,query 设计和 scoring calibration 都很重要。
  • 这篇论文让“human-aligned evaluation”变成了可执行协议,而不是口号。

关键图示

Video-Bench 总览图

!900

这一页展示 benchmark 的两大评测维度以及 human-aligned 的整体设计,是 source note 最适合的首图。

Chain-of-query 与 few-shot scoring 方法图

!900

这一页解释 Video-Bench 如何通过 chain-of-query 和 few-shot scoring 稳定 MLLM 的评测过程,是理解其“人类偏好对齐机制”的关键方法图。

主结果与人工对齐证据

!900

这一页同时包含多模型结果表和 human vs. MLLM 对照案例,是说明 benchmark 实际有效性的关键证据页。

核心实验与结果

  • Video-Bench 给出了多维度、多模型的系统评测结果。
  • 结果页说明它不仅能区分模型优劣,还能在多个维度上更贴近人类偏好。
  • chain-of-query 与 few-shot scoring 共同构成其方法优势。
  • 这篇论文使“human-aligned video benchmark”从概念变成了有方法和结果支撑的评测路线。

局限或疑问

  • human-aligned 不等于真实任务理解。
  • 更贴近人类偏好,不代表已经覆盖所有用户价值与复杂任务完成度。
  • 它补的是评测协议层,不是对生成模型本身的直接改进。

对当前 wiki 判断的影响

  • 它显著补强了 topics/generative-model-evaluation 中“评测协议本身也在快速进化”这条判断。
  • questions/question-do-benchmarks-track-real-video-editing-understanding 来说,它提供了一条和 AIGV-Assessor、Neuro-Symbolic Evaluation 不同的第三种评测立场:人类偏好对齐。
  • 这篇论文让我们更清楚地把“感知质量评测、human alignment、任务理解评测”区分开来。

相关页面

原始链接

  • https://arxiv.org/abs/2504.04907
  • https://arxiv.org/pdf/2504.04907.pdf