LiGAR: LiDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity Recognition

要約

グループ アクティビティ認識 (GAR) は、マルチエージェント インタラクションの複雑な性質により、コンピューター ビジョンにおいて依然として課題が残っています。
このペーパーでは、マルチモーダル グループ アクティビティ認識のための LIDAR ガイド付き階層トランスフォーマーである LiGAR を紹介します。
LiGAR は、LiDAR データを構造的バックボーンとして活用し、視覚情報とテキスト情報の処理をガイドし、オクルージョンと複雑な空間配置の堅牢な処理を可能にします。
私たちのフレームワークには、マルチスケール LIDAR トランスフォーマー、クロスモーダル ガイド付きアテンション、およびアダプティブ フュージョン モジュールが組み込まれており、さまざまなセマンティック レベルでマルチモーダル データを効果的に統合します。
LiGAR の階層アーキテクチャは、個々のアクションからシーンレベルのダイナミクスに至るまで、さまざまな粒度でグループのアクティビティを捕捉します。
JRDB-PAR、バレーボール、NBA データセットに関する広範な実験により、LiGAR の優れたパフォーマンスが実証され、JRDB-PAR の F1 スコアが最大 10.6%、クラスあたりの平均精度が 5.9% 向上した最先端の結果が得られました。
NBA データセット上。
特に、LiGAR は推論中に LiDAR データが利用できない場合でも高いパフォーマンスを維持し、その適応性を示しています。
私たちのアブレーション研究は、グループ活動認識の分野の進歩における各コンポーネントの重要な貢献と、マルチモーダル、マルチスケールのアプローチの有効性を強調しています。

要約(オリジナル)

Group Activity Recognition (GAR) remains challenging in computer vision due to the complex nature of multi-agent interactions. This paper introduces LiGAR, a LIDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity Recognition. LiGAR leverages LiDAR data as a structural backbone to guide the processing of visual and textual information, enabling robust handling of occlusions and complex spatial arrangements. Our framework incorporates a Multi-Scale LIDAR Transformer, Cross-Modal Guided Attention, and an Adaptive Fusion Module to integrate multi-modal data at different semantic levels effectively. LiGAR’s hierarchical architecture captures group activities at various granularities, from individual actions to scene-level dynamics. Extensive experiments on the JRDB-PAR, Volleyball, and NBA datasets demonstrate LiGAR’s superior performance, achieving state-of-the-art results with improvements of up to 10.6% in F1-score on JRDB-PAR and 5.9% in Mean Per Class Accuracy on the NBA dataset. Notably, LiGAR maintains high performance even when LiDAR data is unavailable during inference, showcasing its adaptability. Our ablation studies highlight the significant contributions of each component and the effectiveness of our multi-modal, multi-scale approach in advancing the field of group activity recognition.

arxiv情報

著者 Naga Venkata Sai Raviteja Chappa,Khoa Luu
発行日 2024-10-28 15:11:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク