要約
コンパクトで豊富な高レベルの表現が提供されるため、骨格ベースの人間の行動認識は、最近非常に活発な研究トピックになっています。
以前の研究では、空間的および時間的次元で共同関係を調査すると、行動認識に重要な効果的な情報が提供されることが実証されています。
ただし、時空間特徴抽出中にジョイントのグローバルな依存関係を効果的にエンコードすることは依然として困難です。
本稿では、スケルトン シーケンス内の関節の潜在的な相関関係を考慮して、アクションに関連する主要な関節を特定する Action Capsule を紹介します。
推論中に、エンドツーエンドのネットワークが各アクションに固有の一連のジョイントに注意を払い、そのエンコードされた時空間的特徴がアクションを認識するために集約されることを示します。
さらに、複数段階のアクション カプセルを使用することで、ネットワークが同様のアクションを分類する機能が強化されます。
その結果、私たちのネットワークは、N-UCLA データセットに対する最先端のアプローチよりも優れており、NTURGBD データセットで競争力のある結果を得ることができます。
これは、GFLOPs 測定に基づくと、私たちのアプローチの計算要件が大幅に低下する一方でです。
要約(オリジナル)
Due to the compact and rich high-level representations offered, skeleton-based human action recognition has recently become a highly active research topic. Previous studies have demonstrated that investigating joint relationships in spatial and temporal dimensions provides effective information critical to action recognition. However, effectively encoding global dependencies of joints during spatio-temporal feature extraction is still challenging. In this paper, we introduce Action Capsule which identifies action-related key joints by considering the latent correlation of joints in a skeleton sequence. We show that, during inference, our end-to-end network pays attention to a set of joints specific to each action, whose encoded spatio-temporal features are aggregated to recognize the action. Additionally, the use of multiple stages of action capsules enhances the ability of the network to classify similar actions. Consequently, our network outperforms the state-of-the-art approaches on the N-UCLA dataset and obtains competitive results on the NTURGBD dataset. This is while our approach has significantly lower computational requirements based on GFLOPs measurements.
arxiv情報
著者 | Ali Farajzadeh Bavil,Hamed Damirchi,Hamid D. Taghirad |
発行日 | 2023-01-30 17:28:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google