要約
このペーパーでは、RGBフレームと一緒にスケルトンポーズデータを統合することにより、フィギュアスケートでアスリートの秋の分類用に設計されたゲートシフト融合ネットワークの拡張バージョンであるGate-Shift-Poseを紹介します。
2つの融合戦略を評価します:RGBフレームと入力段階でのポーズキーポイントのガウスヒートマップを組み合わせた早期融合と、RGBとポーズ機能を組み合わせてマルチストリームアーキテクチャと注意メカニズムを使用します。
FR-FSデータセットでの実験は、Gate-Shift-PoseがRGBのみのベースラインを大幅に上回り、ResNet18で最大40%、ResNet50で20%の精度を改善することを示しています。
早期融合は、ResNet50で最高の精度(98.08%)を達成し、効果的なマルチモーダル統合のモデルの容量を活用しますが、遅延融合はResNet18のような軽いバックボーンに適しています。
これらの結果は、スポーツアクション認識のためのマルチモーダルアーキテクチャの可能性と、複雑なモーションパターンをキャプチャする際のスケルトンの重要な役割を強調しています。
要約(オリジナル)
This paper introduces Gate-Shift-Pose, an enhanced version of Gate-Shift-Fuse networks, designed for athlete fall classification in figure skating by integrating skeleton pose data alongside RGB frames. We evaluate two fusion strategies: early-fusion, which combines RGB frames with Gaussian heatmaps of pose keypoints at the input stage, and late-fusion, which employs a multi-stream architecture with attention mechanisms to combine RGB and pose features. Experiments on the FR-FS dataset demonstrate that Gate-Shift-Pose significantly outperforms the RGB-only baseline, improving accuracy by up to 40% with ResNet18 and 20% with ResNet50. Early-fusion achieves the highest accuracy (98.08%) with ResNet50, leveraging the model’s capacity for effective multimodal integration, while late-fusion is better suited for lighter backbones like ResNet18. These results highlight the potential of multimodal architectures for sports action recognition and the critical role of skeleton pose information in capturing complex motion patterns.
arxiv情報
著者 | Edoardo Bianchi,Oswald Lanz |
発行日 | 2025-03-06 14:21:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google