MMMU（CVPR 2024）：面向专家级 AGI 的大规模多学科多模态理解与推理基准

会议：CVPR 2024

发表日期：2023/11/27

资料加入日期：2026-04-14

一句话结论

这篇工作把大规模通用多模态推理 benchmark 补进库里，强化了 vision-language / evaluation 层的上位基线。

问题定义

它要解决的是多模态模型缺少跨学科、广覆盖推理 benchmark 的问题。对当前知识库来说，它能为视频和生成相关判断提供更高层的背景基线。

方法概述

MMMU 构建 massive multi-discipline multimodal understanding and reasoning benchmark，用来测试模型在更广范围内的多模态理解与专家级推理能力。

关键发现

它让 evaluation 页不只围绕视觉生成和视频理解，也有了更上位的 multimodal reasoning 基线。
它能帮助区分“模型在专项视频任务强”和“模型整体多模态推理强”之间的差别。
它对之后做方向探索时很有用，因为能把专项问题放回更大的 MLLM 能力图谱里。

局限或疑问

它不专门面向视频编辑或视频生成。
通用 benchmark 容易和领域专项任务脱节。
它更适合作为上位参照，而非直接回答当前 question。

原始链接

https://arxiv.org/abs/2311.16502
https://arxiv.org/pdf/2311.16502

备注

MMMU 在这套库里的作用，是把大规模通用多模态推理 benchmark 补成 evaluation / vision-language 的上位基线。

Metadata

{ "id": "2026-04-14-mmmu", "type": "source", "title": "MMMU（CVPR 2024）：面向专家级 AGI 的大规模多学科多模态理解与推理基准", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-15", "venue": "CVPR 2024", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "evaluation", "benchmarking", "vision-language", "reasoning", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Yue, Xiang", "Ni, Yuansheng", "Zhang, Kai", "Zheng, Tianyu", "Liu, Ruoqi", "Zhang, Ge", "Stevens, Samuel", "Jiang, Dongfu", "Ren, Weiming", "Sun, Yuxuan", "Wei, Cong", "Yu, Botao", "Yuan, Ruibin", "Sun, Renliang", "Yin, Ming", "Zheng, Boyuan", "Yang, Zhenzhu", "Liu, Yibo", "Huang, Wenhao", "Sun, Huan", "Su, Yu", "Chen, Wenhu" ], "published_at": "2023/11/27", "canonical_links": [ "https://arxiv.org/abs/2311.16502", "https://arxiv.org/pdf/2311.16502" ], "raw_entry": "raw/ingest/2026-04-14-mmmu/", "topics": [ "topics/generative-model-evaluation", "topics/vision-language" ], "entities": [], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }