RefereeBench:多运动项目视频裁判能力评测
会议 / 来源:arXiv 2026
发表日期:2026-04-17
资料加入日期:2026-05-05
一句话结论
RefereeBench 把 sports referee reasoning 做成多运动项目 Video MLLM benchmark,用 11 项运动、925 个视频和 6,475 个 QA pairs 测试犯规存在、处罚分类、理由解释、实体感知和 temporal grounding。
论文定位
这篇论文的价值在评测定义:它把“视频模型会看体育视频”推进到“模型能否执行规则化裁判判断”。它覆盖多运动项目,因此适合放在 topics/sports-ai-roadmap 的 rule-grounded officiating 层,作为从足球 VAR 扩展到 multi-sport referee benchmark 的趋势证据。
对体育 AI 子线的价值
- 与 topics/sports-ai-roadmap 的关系:它把 referee-assist 从单一足球场景扩成跨运动评测。
- 与 topics/sports-ai-video-understanding 的关系:它强调体育视频理解需要实体、时间点、规则和处罚逻辑同步成立。
- 与 topics/video-understanding 的关系:它给通用 Video MLLM 提供一个更严的专业能力测试。
来源可靠性与可溯源性
- 来源层级:arXiv 2026 preprint;当前作为 candidate benchmark evidence 使用。
- 可溯源材料:本地已保存 arXiv abstract、PDF、
paper-text.md和links.yaml;PDF SHA256:13f24e24a416105f30d1e82bf6b7372feabb0b69dbf2e7361276589c2052d02b。 - 使用边界:适合表示 rule-grounded sports MLLM evaluation 的新趋势;正式 venue、数据开放状态和社区复现情况需要后续跟踪。
和现有证据的关系
它与 sources/2026-05-05-x-vars-explainable-football-refereeing 形成层次关系:X-VARS 是 football VAR / foul explanation 的强场景样本,RefereeBench 则把同一类能力转成多运动评测问题。
局限或疑问
- 当前按 arXiv preprint 处理,后续应补 official venue、数据页或代码页。
- 评测结果对模型版本敏感,需要记录被评模型版本和测试时间。
原始材料
raw/ingest/2026-05-05-refereebench-multi-sport-referees/paper.pdfraw/ingest/2026-05-05-refereebench-multi-sport-referees/paper-text.mdraw/ingest/2026-05-05-refereebench-multi-sport-referees/abstract.mdraw/ingest/2026-05-05-refereebench-multi-sport-referees/links.yaml