ArticleMetadataMain page

source · 2026-05-16

TemPose:面向羽毛球细粒度动作识别的骨架 Transformer

TemPose:面向羽毛球细粒度动作识别的骨架 Transformer

会议 / 来源:CVPR Workshop 2023
发表日期:2023-06-01
资料加入日期:2026-05-16

一句话结论

TemPose 是 BST related work 里最直接的 badminton fine-grained motion 锚点:它用骨架 Transformer 建模多人、可变长度的羽毛球动作序列,并把 shuttlecock position 与 player court position 作为额外输入流,证明羽毛球击球语义可以从球路 tracking 过渡到姿态驱动的细粒度动作识别。

论文定位

这篇论文填补 sources/2026-05-16-bst-badminton-stroke-type-transformer 前面的关键方法层:BST 更像后续 stroke-type classifier,TemPose 则更清楚地说明“骨架序列 + 时间注意力 + 人际交互层”如何在羽毛球场景中工作。它和 sources/2026-04-25-st-gcn 构成从 ST-GCN 到 Transformer 的方法演化,也和 sources/2026-05-16-protogcn-skeleton-action-recognition 一起支撑 skeleton-based action recognition 在体育动作中的细粒度化趋势。

问题定义

羽毛球 stroke 的动作差异很细:很多类别在 RGB 外观和身体姿态上高度相似,背景、场馆、衣服和转播机位会引入噪声。TemPose 的任务是用 skeleton-centered representation 识别 fine-grained badminton actions,同时吸收 shuttle 和 court position 这类体育专属上下文。

方法概述

  • 输入:joint / bone skeleton sequence,可加入 player court position (CP) 和 shuttlecock position (SP)。
  • 结构:temporal transformer layers 处理时间动态,factorized interaction transformer layers 建模多人交互。
  • 融合方式:TemPose-TF 在 temporal layers 中融合 CP / SP;TemPose-NF 在 interaction layers 前追加额外模态 token。
  • 输出:class token 进入 MLP head,预测动作类别。
  • 解释入口:temporal attention map 可展示模型关注哪些关键帧。

关键图示

page-02

p2 展示 TemPose framework:skeleton、joint / bone、court position 和 shuttlecock position 被统一送入 Transformer encoder。

page-07

p7 是 badminton fine-grained datasets 的主结果页。TemPose-TF 在 Bad OL 上达到 90.7%,TemPose-NF 在 Bad PL 上达到 84.3%,均高于 ST-GCN、TCN 和 MS-G3D 等基线。

page-08

p8 展示 NTU RGB+D 泛化结果和 attention visualization。attention map 对动作纠正 demo 的证据窗口设计很有价值。

核心实验与结果

实验结果含义
Model configurationTemPose-TF (DL=100, DA=128) 在 Bad OL 上 90.7%,约 1.7M 参数temporal fusion 是该设置下的强平衡点
Joint + BoneTemPose-V 从 J-only 81.4% 提升到 J+B 85.6%bone 信息对细粒度运动识别有帮助
Bad PL / Bad OLTemPose-TF:83.9% / 90.7%;TemPose-NF:84.3% / 89.3%SP / CP 融合比通用 SAR 基线更适合羽毛球
NTU RGB+DTemPose-V (B+J) 在 NTU120 XSet 88.5%、XSub 87.0%结构具有通用 skeleton action recognition 能力
Attention mapsmash 等动作中关注接触 shuttlecock 附近帧可作为教练式解释的证据窗口

对当前 wiki 判断的影响

TemPose 把 badminton 子线从“球在哪里”推进到“人做了什么动作”。它让 topics/sports-ai-video-understanding 的层级更清楚:TrackNet / MonoTrack 负责 shuttle trajectory,ShuttleSet 提供 stroke-level records,TemPose / BST 负责 stroke semantics,后续动作纠正 demo 可以在这一层上定义错误模式。

对于 questions/question-badminton-stroke-correction-demo,TemPose 的 attention map 提醒我们:输出错误模式时应同时给出 hit frame 周围的关键帧、关键关节、置信度和动作证据。

局限或疑问

  • 结果依赖 pose、court position 和 shuttle position 的质量;转播遮挡和运动模糊会影响分类。
  • Bad PL 数据集为 confidential,公开复现更依赖 Bad OL 或后续可公开数据。
  • Attention map 是解释入口,真正教练反馈还需要错误模式标签、动作阶段和反馈模板。

原始材料

  • raw/ingest/2026-05-16-tempose-badminton-fine-grained-motion/paper.pdf
  • raw/ingest/2026-05-16-tempose-badminton-fine-grained-motion/paper-text.md
  • raw/ingest/2026-05-16-tempose-badminton-fine-grained-motion/analysis.md
  • raw/ingest/2026-05-16-tempose-badminton-fine-grained-motion/page-previews-contact-sheet.png
  • raw/ingest/2026-05-16-tempose-badminton-fine-grained-motion/abstract.md
  • raw/ingest/2026-05-16-tempose-badminton-fine-grained-motion/links.yaml

相关页面