SportsMOT：多运动场景下的大规模球员多目标跟踪基准

一句话结论

SportsMOT 把体育视频 MOT 从通用行人跟踪里独立出来，明确指出团队运动的核心难点是高速非线性运动、遮挡和相似外观共同造成的 association 压力。

论文定位

这篇论文属于体育 AI / 体育视频理解主线，和 topics/video-understanding 的长时序理解、对象级关联与 benchmark 设计直接相关。它在 topics/sports-ai-video-understanding 中承担的角色是：这是 entities/sportsmot 的原始 anchor paper，也解释了为什么 sources/2026-04-23-sportmamba 选择 SportsMOT 作为核心验证场景。

问题定义

通用 MOT benchmark 多来自行人、车辆或监控场景，运动速度、视角变化和遮挡模式都和团队运动有明显差异。体育分析真正需要的是持续跟住场上每个球员，从而支持跑动距离、速度、站位和战术分析。

方法概述

论文贡献以数据集和基准为主：收集篮球、排球、足球 3 类运动的 240 段视频，提供超过 150K 帧和 1.6M bounding boxes，并在多种 SOTA tracker 上做系统评测。作者还提出 MixSort，把 MixFormer-like 辅助关联结构接入跟踪管线，用来补强外观相似和运动剧烈场景下的匹配。

关键发现

SportsMOT 的规模约为 MOT17 帧数的 15 倍、框数的 3 倍，使体育 MOT 有了可复用的大规模评测入口。
它把挑战明确归纳为快且变速的运动，以及相似但可区分的球员外观，正好对应 SportMamba 后续要解决的非线性 motion prediction 和 association 问题。
基准结果显示 SportsMOT 的瓶颈主要在 object association。

局限或疑问

数据集仍以三类团队运动为主，和网球、冰球、橄榄球等项目存在场景差异。
它主要提供 tracking 评价，仍需要和事件识别、战术理解、规则判断等高层任务连接。

对当前 wiki 判断的影响

这是 entities/sportsmot 的原始 anchor paper，也解释了为什么 sources/2026-04-23-sportmamba 选择 SportsMOT 作为核心验证场景。它也让 entities/sportsmot 从单一数据集条目扩展成体育 MOT / 轨迹理解分支的导航锚点。

原始链接

https://arxiv.org/abs/2304.05170
https://arxiv.org/pdf/2304.05170
https://doi.org/10.1109/ICCV51070.2023.00910

SportsMOT多运动场景下的大规模球员多目标跟踪基准