CAST: Cross-Attention in Space and Time for Video Action Recognition

要約

ビデオ内の人間の行動を認識するには、空間的および時間的な理解を必要とします。
既存のアクション認識モデルのほとんどは、ビデオのバランスのとれた時空間的理解を欠いています。
この研究では、空間と時間のクロスアテンション (CAST) と呼ばれる新しい 2 ストリーム アーキテクチャを提案します。これは、RGB 入力のみを使用してビデオの時空間のバランスの取れた理解を実現します。
私たちが提案するボトルネッククロスアテンションメカニズムにより、空間的および時間的エキスパートモデルが情報を交換し、相乗的な予測を行うことが可能になり、パフォーマンスの向上につながります。
さまざまな特性を持つ公開ベンチマークである EPIC-KITCHEN-100、Something-Something-V2、および Kinetics-400 での広範な実験により、提案された方法を検証します。
既存の手法のパフォーマンスはデータセットの特性に応じて変動しますが、私たちの手法はこれらのデータセット全体で一貫して良好なパフォーマンスを示します。

要約(オリジナル)

Recognizing human actions in videos requires spatial and temporal understanding. Most existing action recognition models lack a balanced spatio-temporal understanding of videos. In this work, we propose a novel two-stream architecture, called Cross-Attention in Space and Time (CAST), that achieves a balanced spatio-temporal understanding of videos using only RGB input. Our proposed bottleneck cross-attention mechanism enables the spatial and temporal expert models to exchange information and make synergistic predictions, leading to improved performance. We validate the proposed method with extensive experiments on public benchmarks with different characteristics: EPIC-KITCHENS-100, Something-Something-V2, and Kinetics-400. Our method consistently shows favorable performance across these datasets, while the performance of existing methods fluctuates depending on the dataset characteristics.

arxiv情報

著者 Dongho Lee,Jongseo Lee,Jinwoo Choi
発行日 2023-11-30 18:58:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク