生成模型评测

概述

这一页整理生成模型评测问题。它关注的不只是分数高低，而是“我们到底在测什么、这些指标有没有意义、哪些能力被现有 benchmark 忽略了”。在当前 vault 里，这一页尤其重要，因为图像编辑、视频编辑和统一多模态系统都在快速发展，如果评测方式跟不上，很多看似漂亮的结果可能并不能真实反映模型能力。

本页关注什么

benchmark 设计方式
定量评测与人工评测的关系
鲁棒性与失败案例分析
任务特定评测盲点

当前综合判断

sources/2026-04-14-sti-bench、sources/2026-04-14-mmmu、sources/2026-04-14-maplm 和 sources/2026-04-14-concon-chi 又让 evaluation 层补入了精确时空理解、上位多模态推理、现实场景 VL benchmark 与个性化 VL benchmark 几条线。

sources/2026-04-14-lvbench、sources/2026-04-14-sok-bench、sources/2026-04-14-anetqa 和 sources/2026-04-14-neuro-symbolic-eval-t2v 进一步让 evaluation 层形成了“长视频 / 情境推理 / 组合推理 / 形式化验证”四种不同评测逻辑。

sources/2026-04-14-vbench 与 sources/2026-04-14-mvbench 进一步把 evaluation 层补成“综合 suite + 通用视频理解 benchmark + failure diagnosis”的更完整结构。

sources/2026-04-14-glitchbench 继续补入了动态异常诊断 benchmark，说明评测层也在往更具体的 failure setting 拆分。

sources/2026-04-14-hallusionbench 又补入了 failure-mode diagnosis 这一层，说明评测并不只是排序模型，也在审计模型理解偏差。

新补入的 sources/2026-04-14-verifiable-human-eval-t2i 又把“人类评测协议本身如何更可验证、更可复现”补成一条独立路线。

这一主题现在已经开始显露出跨年份脉络。sources/2026-04-14-imagen-editor-editbench 把 image-editing 侧的专门 benchmark 接进来，而 sources/2026-04-14-flasheval 又把快速评测器这一条图像侧路线补上。较早的 sources/2026-04-14-evalcrafter 把“大视频生成模型怎么评”推成独立问题；到 sources/2026-04-14-aigv-assessor、sources/2026-04-14-video-bench，评测进一步分化出 LMM-assessor 与 human-aligned 两条路线；而 sources/2026-04-14-five-bench 又把 video-editing benchmark 往更细粒度能力切开。这说明 evaluation 本身也在演化，而不是静态工具箱。这一主题已经开始有更具体的证据支撑。sources/2026-04-14-aigv-assessor 明确说明，AIGV 场景需要区别于传统 VQA 的专门评测器，而且 LMM 参与的评测框架可能更接近人类感知质量；而 sources/2026-04-14-video-bench 又进一步把“human-aligned benchmark”单独拉成一条路线。也因此，这一页不再只是“汇总评测问题”的框架页，而开始进入“比较不同评测逻辑”阶段。

证据基础

关联页面

后续值得追踪的问题

questions/question-do-benchmarks-track-real-video-editing-understanding — 视频编辑理解 benchmark 与真实任务完成度之间是否存在稳定映射。
哪些指标真的和研究者或用户的主观判断相关？
哪些 benchmark 已经出现“看似饱和、实则能力不足”的情况？
面向可控生成和指令跟随生成，评测体系需要怎样变化？
图像侧的快速评测器能否在保持可靠性的同时真正加快研究迭代？