SportsHHI(CVPR 2024):体育视频中的高层人-人交互检测基准
会议:CVPR 2024
发表日期:2024-04-06
资料加入日期:2026-04-24
一句话结论
SportsHHI 把体育视频理解从“跟住人”推进到“理解人和人之间发生了什么”,把篮球/排球中的高层交互做成可评测的视觉关系检测任务。
论文定位
这篇论文属于体育 AI / 体育视频理解主线,和 topics/video-understanding 的长时序理解、对象级关联与 benchmark 设计直接相关。它在 topics/sports-ai-video-understanding 中承担的角色是:它补上了 topics/sports-ai-video-understanding 中“交互理解”这一层,使体育 AI 主线从 tracking 推向 interaction understanding。
问题定义
体育视频里的关键语义往往存在于多人的相互作用中,例如防守、封堵、传接配合或身体对抗。通用 visual relation 数据集偏向低层关系,很多类别只靠外观或静态先验就能识别,难以逼迫模型学习细粒度时空上下文。
方法概述
论文定义 video human-human interaction detection 任务,并构建 SportsHHI 数据集。数据集来自篮球和排球,包含 34 类高层交互、118,075 个人体框、50,649 个交互实例和 11,398 个关键帧。作者还给出两阶段 baseline,用检测到的人体区域和时空特征预测交互类别。
关键发现
- SportsHHI 把体育视频分析的粒度从单人动作或全局事件推进到 pairwise human-human interaction。
- 34 类高层交互要求模型使用时空上下文,减少只靠静态外观猜关系的捷径。
- 它为后续体育视频 MLLM / event reasoning 提供了比 tracking 更接近语义理解的中间层 benchmark。
局限或疑问
- 当前覆盖篮球和排球,项目范围仍然较窄。
- 它以关键帧与交互实例为主,离完整比赛级长时序战术理解还有距离。
对当前 wiki 判断的影响
它补上了 topics/sports-ai-video-understanding 中“交互理解”这一层,使体育 AI 主线从 tracking 推向 interaction understanding。 它也让 entities/sportsmot 从单一数据集条目扩展成体育 MOT / 轨迹理解分支的导航锚点。
原始链接
- https://arxiv.org/abs/2404.04565
- https://arxiv.org/pdf/2404.04565
- https://doi.org/10.1109/CVPR52733.2024.01754
- https://github.com/MCG-NJU/SportsHHI