要約
グラフ畳み込みネットワークは、スケルトンベースのアクション認識で広く使用されています。
ただし、既存のアプローチでは、クラス間データの類似性により、きめ細かいアクション認識が制限されます。
さらに、ポーズ抽出からのノイズの多いデータにより、きめの細かい認識の課題が増大します。
この研究では、時空間結合の識別力を強化し、よりコンパクトなクラス内特徴量分布を取得するために、チャネル可変時空間アテンション (CVSTA) と呼ばれる柔軟なアテンション ブロックを提案します。
CVSTA に基づいて、多次元リファインメント グラフ畳み込みネットワーク (MDR-GCN) を構築します。これにより、きめの細かいアクションのチャネル、ジョイント、およびフレーム レベルの特徴間の識別を向上させることができます。
さらに、CVSTA の効果を大幅に高め、ノイズの影響を軽減する堅牢な減結合損失 (RDL) を提案します。
MDR-GCN と RDL を組み合わせた提案された方法は、きめの細かいデータセット、FineGym99 および FSD-10、さらには粗いデータセット NTU-RGB+D X ビュー バージョンにおいて、既知の最先端のスケルトンベースのアプローチよりも優れています。
。
要約(オリジナル)
Graph convolutional networks have been widely used in skeleton-based action recognition. However, existing approaches are limited in fine-grained action recognition due to the similarity of inter-class data. Moreover, the noisy data from pose extraction increases the challenge of fine-grained recognition. In this work, we propose a flexible attention block called Channel-Variable Spatial-Temporal Attention (CVSTA) to enhance the discriminative power of spatial-temporal joints and obtain a more compact intra-class feature distribution. Based on CVSTA, we construct a Multi-Dimensional Refinement Graph Convolutional Network (MDR-GCN), which can improve the discrimination among channel-, joint- and frame-level features for fine-grained actions. Furthermore, we propose a Robust Decouple Loss (RDL), which significantly boosts the effect of the CVSTA and reduces the impact of noise. The proposed method combining MDR-GCN with RDL outperforms the known state-of-the-art skeleton-based approaches on fine-grained datasets, FineGym99 and FSD-10, and also on the coarse dataset NTU-RGB+D X-view version.
arxiv情報
著者 | Sheng-Lan Liu,Yu-Ning Ding,Jin-Rong Zhang,Kai-Yuan Liu,Si-Fan Zhang,Fei-Long Wang,Gao Huang |
発行日 | 2023-06-27 09:23:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google