CAST: Cross-Attention in Space and Time for Video Action Recognition

要約

動画中の人間の行動を認識するには、空間的・時間的理解が必要である。既存のほとんどの行動認識モデルは、動画のバランスのとれた時空間的理解に欠けている。本研究では、RGB入力のみを用いて動画のバランスの取れた時空間理解を実現する、CAST(Cross-Attention in Space and Time)と呼ばれる新しい2ストリームアーキテクチャを提案する。提案するボトルネッククロスアテンションメカニズムにより、空間エキスパートモデルと時間エキスパートモデルが情報を交換し、相乗的な予測を行うことが可能となり、性能向上につながる。我々は、異なる特徴を持つ公開ベンチマークを用いた広範な実験により、提案手法を検証する:EPIC-KITCHENS-100、Something-Something-V2、Kinetics-400である。既存の手法の性能がデータセットの特性によって変動するのに対し、我々の手法はこれらのデータセットにおいて一貫して良好な性能を示す。

要約(オリジナル)

Recognizing human actions in videos requires spatial and temporal understanding. Most existing action recognition models lack a balanced spatio-temporal understanding of videos. In this work, we propose a novel two-stream architecture, called Cross-Attention in Space and Time (CAST), that achieves a balanced spatio-temporal understanding of videos using only RGB input. Our proposed bottleneck cross-attention mechanism enables the spatial and temporal expert models to exchange information and make synergistic predictions, leading to improved performance. We validate the proposed method with extensive experiments on public benchmarks with different characteristics: EPIC-KITCHENS-100, Something-Something-V2, and Kinetics-400. Our method consistently shows favorable performance across these datasets, while the performance of existing methods fluctuates depending on the dataset characteristics.

arxiv情報

著者 Dongho Lee,Jongseo Lee,Jinwoo Choi
発行日 2024-09-03 08:16:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク