SoGAR: Self-supervised Spatiotemporal Attention-based Social Group Activity Recognition

要約

この論文では、ラベルのないビデオ データを効果的に利用できる自己教師ありトランスフォーマー ネットワークを使用したソーシャル グループ活動認識 (SoGAR) への新しいアプローチを紹介します。
時空間情報を抽出するために、さまざまなフレーム レートでローカル ビューとグローバル ビューを作成しました。
私たちの自己監視型目標により、同じビデオの対照的なビューから抽出された特徴が時空間領域全体で一貫していることが保証されます。
私たちが提案するアプローチは、トランスフォーマーベースのエンコーダーを使用して、グループアクティビティ認識の弱く監視された設定を軽減するのに効率的です。
変圧器モデルの利点を活用することで、私たちのアプローチは時空間次元に沿って長期的な関係をモデル化できます。
私たちが提案した SoGAR 手法は、JRDB-PAR、NBA、バレーボール データセットという 3 つのグループ活動認識ベンチマークで最先端の結果を達成し、F1 スコア、MCA、および MPCA メトリクスの点で現在の数値を上回りました。

要約(オリジナル)

This paper introduces a novel approach to Social Group Activity Recognition (SoGAR) using Self-supervised Transformers network that can effectively utilize unlabeled video data. To extract spatio-temporal information, we created local and global views with varying frame rates. Our self-supervised objective ensures that features extracted from contrasting views of the same video were consistent across spatio-temporal domains. Our proposed approach is efficient in using transformer-based encoders to alleviate the weakly supervised setting of group activity recognition. By leveraging the benefits of transformer models, our approach can model long-term relationships along spatio-temporal dimensions. Our proposed SoGAR method achieved state-of-the-art results on three group activity recognition benchmarks, namely JRDB-PAR, NBA, and Volleyball datasets, surpassing the current numbers in terms of F1-score, MCA, and MPCA metrics.

arxiv情報

著者 Naga VS Raviteja Chappa,Pha Nguyen,Alexander H Nelson,Han-Seok Seo,Xin Li,Page Daniel Dobbs,Khoa Luu
発行日 2023-08-28 14:18:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク