PSUMNet: Unified Modality Part Streams are All You Need for Efficient Pose-based Action Recognition

要約

ポーズに基づくアクション認識は、入力スケルトンをモノリシックに扱うアプローチ、すなわち、ポーズツリー内の関節を全体として処理するアプローチによって主に取り組まれている。しかし、このようなアプローチでは、手(例:親指を立てる)や足(例:蹴る)を含む部分関節群の小さな部分集合のみを含む局所的な動作ダイナミクスによって、動作カテゴリが特徴付けられることが多いという事実を無視している。しかし、各部位のグルーピングに基づくアプローチは、各部位がグローバルなポーズフレーム内で考慮されないため、このような手法では不十分である。さらに、従来の手法では、独立したモダリティストリーム(例:関節、骨、関節速度、骨速度)を用い、これらのストリームに対してネットワークを複数回学習するため、学習パラメータの数が非常に多くなってしまう。これらの問題に対処するため、我々はスケーラブルで効率的なポーズベース行動認識のための新しいアプローチであるPSUMNetを紹介する。表現レベルでは、従来のモダリティベースのストリームとは対照的に、グローバルフレームベースのパートストリームアプローチを提案する。各パーツストリーム内では、複数のモダリティからの関連データが統一され、処理パイプラインによって消費される。実験的に、PSUMNetは広く使われているNTURGB+D 60/120データセットと高密度ジョイントスケルトンデータセットNTU 60-X/120-Xにおいて、最先端の性能を達成した。PSUMNetは非常に効率的で、100%~400%多くのパラメータを使用する競合手法を凌駕しています。また、PSUMNetはSHRECハンドジェスチャーデータセットに対しても、競争力のあるパフォーマンスで汎化することができます。PSUMNetのスケーラビリティ、パフォーマンス、効率性は、アクション認識や、コンピュータが制限された組み込みデバイスやエッジデバイスへの展開に魅力的な選択肢となります。コードと事前学習済みモデルについては、https://github.com/skelemoa/psumnet でアクセスできます。

要約(オリジナル)

Pose-based action recognition is predominantly tackled by approaches which treat the input skeleton in a monolithic fashion, i.e. joints in the pose tree are processed as a whole. However, such approaches ignore the fact that action categories are often characterized by localized action dynamics involving only small subsets of part joint groups involving hands (e.g. `Thumbs up’) or legs (e.g. `Kicking’). Although part-grouping based approaches exist, each part group is not considered within the global pose frame, causing such methods to fall short. Further, conventional approaches employ independent modality streams (e.g. joint, bone, joint velocity, bone velocity) and train their network multiple times on these streams, which massively increases the number of training parameters. To address these issues, we introduce PSUMNet, a novel approach for scalable and efficient pose-based action recognition. At the representation level, we propose a global frame based part stream approach as opposed to conventional modality based streams. Within each part stream, the associated data from multiple modalities is unified and consumed by the processing pipeline. Experimentally, PSUMNet achieves state of the art performance on the widely used NTURGB+D 60/120 dataset and dense joint skeleton dataset NTU 60-X/120-X. PSUMNet is highly efficient and outperforms competing methods which use 100%-400% more parameters. PSUMNet also generalizes to the SHREC hand gesture dataset with competitive performance. Overall, PSUMNet’s scalability, performance and efficiency makes it an attractive choice for action recognition and for deployment on compute-restricted embedded and edge devices. Code and pretrained models can be accessed at https://github.com/skelemoa/psumnet

arxiv情報

著者 Neel Trivedi,Ravi Kiran Sarvadevabhatla
発行日 2022-08-11 12:12:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR, cs.MM パーマリンク