SportsHHI（CVPR 2024）：体育视频中的高层人-人交互检测基准

会议：CVPR 2024

发表日期：2024-04-06

资料加入日期：2026-04-24

一句话结论

SportsHHI 把体育视频理解从“跟住人”推进到“理解人和人之间发生了什么”，把篮球/排球中的高层交互做成可评测的视觉关系检测任务。

论文定位

这篇论文属于体育 AI / 体育视频理解主线，和 topics/video-understanding 的长时序理解、对象级关联与 benchmark 设计直接相关。它在 topics/sports-ai-video-understanding 中承担的角色是：它补上了 topics/sports-ai-video-understanding 中“交互理解”这一层，使体育 AI 主线从 tracking 推向 interaction understanding。

问题定义

体育视频里的关键语义往往存在于多人的相互作用中，例如防守、封堵、传接配合或身体对抗。通用 visual relation 数据集偏向低层关系，很多类别只靠外观或静态先验就能识别，难以逼迫模型学习细粒度时空上下文。

方法概述

论文定义 video human-human interaction detection 任务，并构建 SportsHHI 数据集。数据集来自篮球和排球，包含 34 类高层交互、118,075 个人体框、50,649 个交互实例和 11,398 个关键帧。作者还给出两阶段 baseline，用检测到的人体区域和时空特征预测交互类别。

关键发现

SportsHHI 把体育视频分析的粒度从单人动作或全局事件推进到 pairwise human-human interaction。
34 类高层交互要求模型使用时空上下文，减少只靠静态外观猜关系的捷径。
它为后续体育视频 MLLM / event reasoning 提供了比 tracking 更接近语义理解的中间层 benchmark。

局限或疑问

当前覆盖篮球和排球，项目范围仍然较窄。
它以关键帧与交互实例为主，离完整比赛级长时序战术理解还有距离。

对当前 wiki 判断的影响

它补上了 topics/sports-ai-video-understanding 中“交互理解”这一层，使体育 AI 主线从 tracking 推向 interaction understanding。它也让 entities/sportsmot 从单一数据集条目扩展成体育 MOT / 轨迹理解分支的导航锚点。

原始链接

https://arxiv.org/abs/2404.04565
https://arxiv.org/pdf/2404.04565
https://doi.org/10.1109/CVPR52733.2024.01754
https://github.com/MCG-NJU/SportsHHI

SportsHHI（CVPR 2024）：体育视频中的高层人-人交互检测基准

SportsHHI（CVPR 2024）：体育视频中的高层人-人交互检测基准

一句话结论

论文定位

问题定义

方法概述

关键发现

局限或疑问

对当前 wiki 判断的影响

原始链接

相关页面

Metadata