RefereeBench：多运动项目视频裁判能力评测

一句话结论

RefereeBench 把 sports referee reasoning 做成多运动项目 Video MLLM benchmark，用 11 项运动、925 个视频和 6,475 个 QA pairs 测试犯规存在、处罚分类、理由解释、实体感知和 temporal grounding。

论文定位

这篇论文的价值在评测定义：它把“视频模型会看体育视频”推进到“模型能否执行规则化裁判判断”。它覆盖多运动项目，因此适合放在 topics/sports-ai-roadmap 的 rule-grounded officiating 层，作为从足球 VAR 扩展到 multi-sport referee benchmark 的趋势证据。

对体育 AI 子线的价值

与 topics/sports-ai-roadmap 的关系：它把 referee-assist 从单一足球场景扩成跨运动评测。
与 topics/sports-ai-video-understanding 的关系：它强调体育视频理解需要实体、时间点、规则和处罚逻辑同步成立。
与 topics/video-understanding 的关系：它给通用 Video MLLM 提供一个更严的专业能力测试。

来源可靠性与可溯源性

来源层级：arXiv 2026 preprint；当前作为 candidate benchmark evidence 使用。
可溯源材料：本地已保存 arXiv abstract、PDF、paper-text.md 和 links.yaml；PDF SHA256：13f24e24a416105f30d1e82bf6b7372feabb0b69dbf2e7361276589c2052d02b。
使用边界：适合表示 rule-grounded sports MLLM evaluation 的新趋势；正式 venue、数据开放状态和社区复现情况需要后续跟踪。

和现有证据的关系

它与 sources/2026-05-05-x-vars-explainable-football-refereeing 形成层次关系：X-VARS 是 football VAR / foul explanation 的强场景样本，RefereeBench 则把同一类能力转成多运动评测问题。

局限或疑问

当前按 arXiv preprint 处理，后续应补 official venue、数据页或代码页。
评测结果对模型版本敏感，需要记录被评模型版本和测试时间。

原始材料

raw/ingest/2026-05-05-refereebench-multi-sport-referees/paper.pdf
raw/ingest/2026-05-05-refereebench-multi-sport-referees/paper-text.md
raw/ingest/2026-05-05-refereebench-multi-sport-referees/abstract.md
raw/ingest/2026-05-05-refereebench-multi-sport-referees/links.yaml

RefereeBench多运动项目视频裁判能力评测