MMMU(CVPR 2024):面向专家级 AGI 的大规模多学科多模态理解与推理基准
会议:CVPR 2024
发表日期:2023/11/27
资料加入日期:2026-04-14
一句话结论
这篇工作把大规模通用多模态推理 benchmark 补进库里,强化了 vision-language / evaluation 层的上位基线。
问题定义
它要解决的是多模态模型缺少跨学科、广覆盖推理 benchmark 的问题。对当前知识库来说,它能为视频和生成相关判断提供更高层的背景基线。
方法概述
MMMU 构建 massive multi-discipline multimodal understanding and reasoning benchmark,用来测试模型在更广范围内的多模态理解与专家级推理能力。
关键发现
- 它让 evaluation 页不只围绕视觉生成和视频理解,也有了更上位的 multimodal reasoning 基线。
- 它能帮助区分“模型在专项视频任务强”和“模型整体多模态推理强”之间的差别。
- 它对之后做方向探索时很有用,因为能把专项问题放回更大的 MLLM 能力图谱里。
局限或疑问
- 它不专门面向视频编辑或视频生成。
- 通用 benchmark 容易和领域专项任务脱节。
- 它更适合作为上位参照,而非直接回答当前 question。
原始链接
- https://arxiv.org/abs/2311.16502
- https://arxiv.org/pdf/2311.16502
相关页面
- topics/generative-model-evaluation
- topics/vision-language
- questions/question-do-benchmarks-track-real-video-editing-understanding
备注
MMMU 在这套库里的作用,是把大规模通用多模态推理 benchmark 补成 evaluation / vision-language 的上位基线。