AIGV-Assessor：用大模型评测文本到视频生成感知质量

一句话结论

AIGV-Assessor 说明现有视频质量评测器对 AIGV 特有失真并不够敏感，因此需要专门的数据库和 LMM-based evaluator，来更贴近人类对 text-to-video 感知质量的判断。

论文定位

这篇论文是“AIGV 专用 evaluator”路线里的代表作。它的重点不是再造一个生成模型，而是重做评测器本身。

问题定义

作者指出，传统视频质量评测对 AIGV 场景存在结构性失配：

AIGV 会出现不真实物体、不自然运动和跨帧不一致等特殊失真
传统 VQA / image-based 指标往往对这些问题不够敏感
单一总分也不足以反映模型在不同维度上的质量差异

方法概述

AIGV-Assessor 有三层关键设计：

AIGVQA-DB 数据集

大规模覆盖多个 T2V 模型和 prompt，并提供四个感知质量维度与总体偏好标注。

多维感知质量定义

论文把质量拆成 Static Quality、Temporal Smoothness、Dynamic Degree 和 T/V Correspondence。

AIGV-Assessor 框架

使用空间/时间视觉编码器 + LMM decoder，并结合质量文本生成、质量回归和 pairwise comparison 来预测多维质量与偏好。

关键发现

AIGV 需要专门的视频质量评测器，不能简单沿用传统 VQA。
多维质量拆分使 evaluator 更适合做模型诊断，而不只是粗略排名。
LMM 参与的评测框架在多种感知质量维度上优于既有评分方法。
这篇论文清楚地区分了“感知质量评测”和“编辑理解评测”并不相同。

关键图示

AIGVQA-DB 与四维质量总览

!900

这一页展示 AIGVQA-DB 的四个质量维度、评分分布、模型表现与 prompt 复杂度分析，是理解数据集结构和标注设计的关键页。

AIGV-Assessor 方法总图

!900

这一页最关键。它展示 AIGV-Assessor 如何从空间/时间视觉特征出发，通过 LMM decoder 生成质量文本并回归质量分数，同时用 pairwise comparison 学到更细偏好。

主结果与消融

!900

这一页包含多维结果图和方法消融，是说明 AIGV-Assessor 在人类对齐上优于传统评测器的关键证据页。

核心实验与结果

AIGV-Assessor 在 AIGVQA-DB 和相关数据库上取得了更高的人类对齐表现。
结果页说明它不只是对总分更准，也能在多个维度上更稳定地区分模型优劣。
pairwise comparison 与 quality regression 的结合是其性能提升的重要来源。
这篇论文把 generative-model-evaluation 推向了更像人类感知的 AIGV 专用评测路线。

局限或疑问

它测的是感知质量，不等于已经完整覆盖视频编辑理解能力。
专家评分更接近人类判断，但仍不等于真实任务完成度本身。
它更适合补评测层，而不是直接回答生成模型如何改进。

对当前 wiki 判断的影响

它显著补强了 topics/generative-model-evaluation 中“评测器本身需要按 AIGV 特性重做”这条判断。
对 questions/question-do-benchmarks-track-real-video-editing-understanding 来说，它说明“感知质量评测”是一条必须单列的坐标轴。
它也为 claims/claim-current-models-still-struggle-to-understand-video-editing 提供了旁证：即便生成得好看，也不代表理解得好。

原始链接

https://openaccess.thecvf.com/content/CVPR2025/html/Wang_AIGV-Assessor_Benchmarking_and_Evaluating_the_Perceptual_Quality_of_Text-to-Video_Generation_CVPR_2025_paper.html
https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_AIGV-Assessor_Benchmarking_and_Evaluating_the_Perceptual_Quality_of_Text-to-Video_Generation_CVPR_2025_paper.pdf

AIGV-Assessor用大模型评测文本到视频生成感知质量

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

AIGVQA-DB 与四维质量总览

AIGV-Assessor 方法总图

主结果与消融

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

元数据