要約
最先端の空間的アクション検出(STAD)メソッドは、放送ビデオからサッカーイベントを抽出するための有望な結果を示しています。
ただし、サッカー分析での徹底的なイベントカバレッジに必要な高度な低精度体制で操作されると、コンテキストの理解の欠如が明らかになります。
この作業では、ゲームレベルで推論し、除去シーケンス変換タスクを追加することによりSTADを改善することにより、この制限に対処します。
ノイズの多いコンテキストのないプレーヤー中心の予測のシーケンスは、トランスベースのエンコーダデコーダーモデルを使用して、クリーンなゲーム状態情報とともに処理されます。
拡張された時間的コンテキストとチームレベルのダイナミクスを共同で推論することにより、私たちの方法は、「サッカーの言語」(その戦術的な規則性とプレーヤー間依存関係)を活用して、「除去された」シーケンスのアクションを生成します。
このアプローチは、低自信レジームでの精度とリコールの両方を改善し、ブロードキャストビデオからより信頼性の高いイベント抽出を可能にし、既存のピクセルベースの方法を補完します。
要約(オリジナル)
State-of-the-art spatio-temporal action detection (STAD) methods show promising results for extracting soccer events from broadcast videos. However, when operated in the high-recall, low-precision regime required for exhaustive event coverage in soccer analytics, their lack of contextual understanding becomes apparent: many false positives could be resolved by considering a broader sequence of actions and game-state information. In this work, we address this limitation by reasoning at the game level and improving STAD through the addition of a denoising sequence transduction task. Sequences of noisy, context-free player-centric predictions are processed alongside clean game state information using a Transformer-based encoder-decoder model. By modeling extended temporal context and reasoning jointly over team-level dynamics, our method leverages the ‘language of soccer’ – its tactical regularities and inter-player dependencies – to generate ‘denoised’ sequences of actions. This approach improves both precision and recall in low-confidence regimes, enabling more reliable event extraction from broadcast video and complementing existing pixel-based methods.
arxiv情報
著者 | Jeremie Ochin,Raphael Chekroun,Bogdan Stanciulescu,Sotiris Manitsaris |
発行日 | 2025-05-14 15:05:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google