ArticleMetadataMain page

source · 2026-05-05

RefereeBench:多运动项目视频裁判能力评测

RefereeBench:多运动项目视频裁判能力评测

会议 / 来源:arXiv 2026
发表日期:2026-04-17
资料加入日期:2026-05-05

一句话结论

RefereeBench 把 sports referee reasoning 做成多运动项目 Video MLLM benchmark,用 11 项运动、925 个视频和 6,475 个 QA pairs 测试犯规存在、处罚分类、理由解释、实体感知和 temporal grounding。

论文定位

这篇论文的价值在评测定义:它把“视频模型会看体育视频”推进到“模型能否执行规则化裁判判断”。它覆盖多运动项目,因此适合放在 topics/sports-ai-roadmap 的 rule-grounded officiating 层,作为从足球 VAR 扩展到 multi-sport referee benchmark 的趋势证据。

对体育 AI 子线的价值

来源可靠性与可溯源性

  • 来源层级:arXiv 2026 preprint;当前作为 candidate benchmark evidence 使用。
  • 可溯源材料:本地已保存 arXiv abstract、PDF、paper-text.mdlinks.yaml;PDF SHA256:13f24e24a416105f30d1e82bf6b7372feabb0b69dbf2e7361276589c2052d02b
  • 使用边界:适合表示 rule-grounded sports MLLM evaluation 的新趋势;正式 venue、数据开放状态和社区复现情况需要后续跟踪。

和现有证据的关系

它与 sources/2026-05-05-x-vars-explainable-football-refereeing 形成层次关系:X-VARS 是 football VAR / foul explanation 的强场景样本,RefereeBench 则把同一类能力转成多运动评测问题。

局限或疑问

  • 当前按 arXiv preprint 处理,后续应补 official venue、数据页或代码页。
  • 评测结果对模型版本敏感,需要记录被评模型版本和测试时间。

原始材料

  • raw/ingest/2026-05-05-refereebench-multi-sport-referees/paper.pdf
  • raw/ingest/2026-05-05-refereebench-multi-sport-referees/paper-text.md
  • raw/ingest/2026-05-05-refereebench-multi-sport-referees/abstract.md
  • raw/ingest/2026-05-05-refereebench-multi-sport-referees/links.yaml

相关页面