要約
質問に答えるためにスポーツ ビデオを推論することは、選手のトレーニングや情報検索など、さまざまなアプリケーションで重要なタスクです。
ただし、このタスクは、関連するデータセットが不足していることと、その性質が困難であるため、これまで検討されていませんでした。
ビデオ質問応答 (VideoQA) のほとんどのデータセットは、主に日常生活ビデオの一般的かつ大まかな理解に焦点を当てており、専門的な動作の理解や詳細な動作分析を必要とするスポーツ シナリオには適用できません。
このペーパーでは、スポーツ VideoQA タスク用に特別に設計された、Sports-QA という名前の最初のデータセットを紹介します。
Sports-QA データセットには、説明、年表、因果関係、反事実条件など、複数のスポーツをカバーするさまざまな種類の質問が含まれています。
さらに、スポーツ VideoQA タスクの特性に対処するために、質問応答のために特定スケールの時間情報に自動的に焦点を合わせることができる新しいオートフォーカス トランスフォーマー (AFT) を提案します。
私たちは、ベースライン研究やさまざまな手法の評価など、スポーツ QA に関する広範な実験を行っています。
この結果は、当社の AFT が最先端のパフォーマンスを達成していることを示しています。
要約(オリジナル)
Reasoning over sports videos for question answering is an important task with numerous applications, such as player training and information retrieval. However, this task has not been explored due to the lack of relevant datasets and the challenging nature it presents. Most datasets for video question answering (VideoQA) focus mainly on general and coarse-grained understanding of daily-life videos, which is not applicable to sports scenarios requiring professional action understanding and fine-grained motion analysis. In this paper, we introduce the first dataset, named Sports-QA, specifically designed for the sports VideoQA task. The Sports-QA dataset includes various types of questions, such as descriptions, chronologies, causalities, and counterfactual conditions, covering multiple sports. Furthermore, to address the characteristics of the sports VideoQA task, we propose a new Auto-Focus Transformer (AFT) capable of automatically focusing on particular scales of temporal information for question answering. We conduct extensive experiments on Sports-QA, including baseline studies and the evaluation of different methods. The results demonstrate that our AFT achieves state-of-the-art performance.
arxiv情報
著者 | Haopeng Li,Andong Deng,Jun Liu,Hossein Rahmani,Yulan Guo,Bernt Schiele,Mohammed Bennamoun,Qiuhong Ke |
発行日 | 2025-01-15 12:31:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google