ArticleMetadataMain page

source · 2026-04-15

MMMU(CVPR 2024):面向专家级 AGI 的大规模多学科多模态理解与推理基准

MMMU(CVPR 2024):面向专家级 AGI 的大规模多学科多模态理解与推理基准

会议:CVPR 2024
发表日期:2023/11/27
资料加入日期:2026-04-14

一句话结论

这篇工作把大规模通用多模态推理 benchmark 补进库里,强化了 vision-language / evaluation 层的上位基线。

问题定义

它要解决的是多模态模型缺少跨学科、广覆盖推理 benchmark 的问题。对当前知识库来说,它能为视频和生成相关判断提供更高层的背景基线。

方法概述

MMMU 构建 massive multi-discipline multimodal understanding and reasoning benchmark,用来测试模型在更广范围内的多模态理解与专家级推理能力。

关键发现

  • 它让 evaluation 页不只围绕视觉生成和视频理解,也有了更上位的 multimodal reasoning 基线。
  • 它能帮助区分“模型在专项视频任务强”和“模型整体多模态推理强”之间的差别。
  • 它对之后做方向探索时很有用,因为能把专项问题放回更大的 MLLM 能力图谱里。

局限或疑问

  • 它不专门面向视频编辑或视频生成。
  • 通用 benchmark 容易和领域专项任务脱节。
  • 它更适合作为上位参照,而非直接回答当前 question。

原始链接

  • https://arxiv.org/abs/2311.16502
  • https://arxiv.org/pdf/2311.16502

相关页面

备注

MMMU 在这套库里的作用,是把大规模通用多模态推理 benchmark 补成 evaluation / vision-language 的上位基线。