生成模型评测
概述
这一页整理生成模型评测问题。它关注的不只是分数高低,而是“我们到底在测什么、这些指标有没有意义、哪些能力被现有 benchmark 忽略了”。在当前 vault 里,这一页尤其重要,因为图像编辑、视频编辑和统一多模态系统都在快速发展,如果评测方式跟不上,很多看似漂亮的结果可能并不能真实反映模型能力。
本页关注什么
- benchmark 设计方式
- 定量评测与人工评测的关系
- 鲁棒性与失败案例分析
- 任务特定评测盲点
当前综合判断
sources/2026-04-14-sti-bench、sources/2026-04-14-mmmu、sources/2026-04-14-maplm 和 sources/2026-04-14-concon-chi 又让 evaluation 层补入了精确时空理解、上位多模态推理、现实场景 VL benchmark 与个性化 VL benchmark 几条线。
sources/2026-04-14-lvbench、sources/2026-04-14-sok-bench、sources/2026-04-14-anetqa 和 sources/2026-04-14-neuro-symbolic-eval-t2v 进一步让 evaluation 层形成了“长视频 / 情境推理 / 组合推理 / 形式化验证”四种不同评测逻辑。
sources/2026-04-14-vbench 与 sources/2026-04-14-mvbench 进一步把 evaluation 层补成“综合 suite + 通用视频理解 benchmark + failure diagnosis”的更完整结构。
sources/2026-04-14-glitchbench 继续补入了动态异常诊断 benchmark,说明评测层也在往更具体的 failure setting 拆分。
sources/2026-04-14-hallusionbench 又补入了 failure-mode diagnosis 这一层,说明评测并不只是排序模型,也在审计模型理解偏差。
新补入的 sources/2026-04-14-verifiable-human-eval-t2i 又把“人类评测协议本身如何更可验证、更可复现”补成一条独立路线。
这一主题现在已经开始显露出跨年份脉络。sources/2026-04-14-imagen-editor-editbench 把 image-editing 侧的专门 benchmark 接进来,而 sources/2026-04-14-flasheval 又把快速评测器这一条图像侧路线补上。较早的 sources/2026-04-14-evalcrafter 把“大视频生成模型怎么评”推成独立问题;到 sources/2026-04-14-aigv-assessor、sources/2026-04-14-video-bench,评测进一步分化出 LMM-assessor 与 human-aligned 两条路线;而 sources/2026-04-14-five-bench 又把 video-editing benchmark 往更细粒度能力切开。这说明 evaluation 本身也在演化,而不是静态工具箱。这一主题已经开始有更具体的证据支撑。sources/2026-04-14-aigv-assessor 明确说明,AIGV 场景需要区别于传统 VQA 的专门评测器,而且 LMM 参与的评测框架可能更接近人类感知质量;而 sources/2026-04-14-video-bench 又进一步把“human-aligned benchmark”单独拉成一条路线。也因此,这一页不再只是“汇总评测问题”的框架页,而开始进入“比较不同评测逻辑”阶段。
证据基础
- sources/2026-04-14-evalcrafter
- sources/2026-04-14-aigv-assessor
- sources/2026-04-12-veu-bench
- sources/2026-04-14-videocrafter2
- sources/2026-04-14-video-bench
- sources/2026-04-14-five-bench
- sources/2026-04-14-imagen-editor-editbench
- sources/2026-04-14-flasheval
- sources/2026-04-14-verifiable-human-eval-t2i
- sources/2026-04-14-hallusionbench
- sources/2026-04-14-glitchbench
- sources/2026-04-14-mvbench
- sources/2026-04-14-neuro-symbolic-eval-t2v
- sources/2026-04-14-concon-chi
- sources/2026-04-14-maplm
- sources/2026-04-14-mmmu
- sources/2026-04-14-sti-bench
- sources/2026-04-14-anetqa
- sources/2026-04-14-sok-bench
- sources/2026-04-14-lvbench
- sources/2026-04-14-vbench
关联页面
- topics/image-generation
- topics/video-understanding
- topics/diffusion-models
- topics/vision-language
- entities/video-editing-understanding
后续值得追踪的问题
- questions/question-do-benchmarks-track-real-video-editing-understanding — 视频编辑理解 benchmark 与真实任务完成度之间是否存在稳定映射。
- 哪些指标真的和研究者或用户的主观判断相关?
- 哪些 benchmark 已经出现“看似饱和、实则能力不足”的情况?
- 面向可控生成和指令跟随生成,评测体系需要怎样变化?
- 图像侧的快速评测器能否在保持可靠性的同时真正加快研究迭代?