要約
マルチビューアクション認識の最近の進歩は、トランスベースのモデルに大きく依存しています。
効果的かつ適応性がありますが、これらのモデルは、特に複数のビューと複数の時間シーケンスを備えたシナリオで、実質的な計算リソースを必要とすることがよくあります。
この制限に対処するこのペーパーでは、MV-GMNモデル、マルチモーダルデータ(RGBとスケルトン)を効率的に集約するように特別に設計された状態空間モデル、マルチビューの観点、およびコンピューターの複雑さの減少とともに、アクション認識の多面的な情報を紹介します。
。
MV-GMNモデルは、一連のMV-GMNブロックで構成される革新的なマルチビューグラフMAMBAネットワークを採用しています。
各ブロックには、提案された双方向の状態スペースブロックとGCNモジュールが含まれています。
双方向の状態スペースブロックは、ビュー優先順位と時間の指定されたアプローチを含む4つのスキャン戦略を導入します。
GCNモジュールは、グラフネットワークを構築するためのルールベースおよびKNNベースのメソッドを活用し、さまざまな視点や時間インスタンスから機能を効果的に統合します。
その有効性を実証するMV-GMNは、いくつかのデータセットの最先端を上回り、それぞれクロスサブジェクトおよびクロスビューシナリオのNTU RGB+D 120データセットで97.3 \%および96.7 \%の顕著な精度を達成します
。
MV-GMNはまた、線形推論の複雑さのみを必要としながら、変圧器ベースのベースラインを上回り、計算負荷を減らし、マルチビューアクション認識技術のスケーラビリティと適用性を高めるモデルの能力を強調しています。
要約(オリジナル)
Recent advancements in multi-view action recognition have largely relied on Transformer-based models. While effective and adaptable, these models often require substantial computational resources, especially in scenarios with multiple views and multiple temporal sequences. Addressing this limitation, this paper introduces the MV-GMN model, a state-space model specifically designed to efficiently aggregate multi-modal data (RGB and skeleton), multi-view perspectives, and multi-temporal information for action recognition with reduced computational complexity. The MV-GMN model employs an innovative Multi-View Graph Mamba network comprising a series of MV-GMN blocks. Each block includes a proposed Bidirectional State Space Block and a GCN module. The Bidirectional State Space Block introduces four scanning strategies, including view-prioritized and time-prioritized approaches. The GCN module leverages rule-based and KNN-based methods to construct the graph network, effectively integrating features from different viewpoints and temporal instances. Demonstrating its efficacy, MV-GMN outperforms the state-of-the-arts on several datasets, achieving notable accuracies of 97.3\% and 96.7\% on the NTU RGB+D 120 dataset in cross-subject and cross-view scenarios, respectively. MV-GMN also surpasses Transformer-based baselines while requiring only linear inference complexity, underscoring the model’s ability to reduce computational load and enhance the scalability and applicability of multi-view action recognition technologies.
arxiv情報
著者 | Yuhui Lin,Jiaxuan Lu,Yue Yong,Jiahao Zhang |
発行日 | 2025-01-23 16:53:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google