TranSPORTmer（ACCV 2024 / arXiv）：面向多智能体体育轨迹理解的统一 Transformer 框架

会议：ACCV 2024 / arXiv

发表日期：2024-11-09

资料加入日期：2026-04-24

一句话结论

TranSPORTmer 把体育视频/轨迹分析从单一 tracking 任务推进到统一的多智能体轨迹理解：预测、补全、状态推断和比赛状态分类可以放进同一个框架。

论文定位

这篇论文属于体育 AI / 体育视频理解主线，和 topics/video-understanding 的长时序理解、对象级关联与 benchmark 设计直接相关。它在 topics/sports-ai-video-understanding 中承担的角色是：它为 topics/sports-ai-video-understanding 提供了从 detection/tracking 到 multi-agent trajectory reasoning 的桥梁。

问题定义

体育轨迹数据经常缺失、噪声大，而且同一场景里同时存在球员、球、队伍状态和比赛事件。传统方法往往为预测、补全、球位置推断、状态分类分别训练模型，难以形成统一的比赛理解表示。

方法概述

TranSPORTmer 使用 Set Attention Blocks 建模多智能体之间的时空与社会交互，用输入 mask 控制当前要做预测、补全还是推断任务，并加入一个 CLS extra agent 来分类足球轨迹中的 pass、possession、uncontrolled、out-of-play 等状态。

关键发现

统一模型可以同时处理 player forecasting、forecasting-imputation、ball inference、ball imputation 等任务。
Set Attention 的等变建模适合多智能体体育场景，因为球员集合没有固定顺序，但相互作用结构很关键。
CLS extra agent 把低层轨迹建模接到了更高层比赛状态理解，这是从 tracking 走向 tactical understanding 的关键一步。

局限或疑问

它主要依赖轨迹数据，和原始视频像素、视觉语言解释之间仍有接口缺口。
当前结论更适合支撑“轨迹理解”路线，还不能直接替代视频端事件识别或规则判断。

对当前 wiki 判断的影响

它为 topics/sports-ai-video-understanding 提供了从 detection/tracking 到 multi-agent trajectory reasoning 的桥梁。它也让 entities/sportsmot 从单一数据集条目扩展成体育 MOT / 轨迹理解分支的导航锚点。

原始链接

https://arxiv.org/abs/2410.17785
https://arxiv.org/pdf/2410.17785
https://doi.org/10.48550/arXiv.2410.17785
https://youtu.be/8VtSRm8oGoE
https://link.springer.com/chapter/10.1007/978-981-96-0901-7_20
https://doi.org/10.1007/978-981-96-0901-7_20

TranSPORTmer面向多智能体体育轨迹理解的统一 Transformer 框架