Part Aware Contrastive Learning for Self-Supervised Action Recognition

要約

タイトル:自己教師あり活動認識のパートに着目したコントラスティブラーニング

要約:

– 最近、コントラスティブ学習を用いた骨格データを用いた自己教師あり活動認識の分野で驚くべき結果が得られています。
– 人間の行動の特徴の意味的区別は、足や手などのローカルなボディパーツによって表されることがしばしば観察されており、骨格ベースの活動認識に有利です。
– 本論文では、SkeAttnCLRと呼ばれる骨格表現学習のためのアテンションに基づくコントラスティブ学習フレームワークを提案しています。これにより、骨格からソフトなアテンションマスク特徴を学習し、局所的で顕著な特徴を強調しながら、非顕著な局所的特徴を抑圧して、類似する局所的特徴を特徴空間内で近づけることができます。
– また、グローバル特徴を用いて顕著および非顕著特徴に基づいてコントラスティブペアを拡張することにより、充分なコントラスティブペアが生成され、ネットワークが骨格全体の意味的表現を学習することができます。
– SkeAttnCLRは、アテンションマスクメカニズムにより、さまざまなデータ拡張ビューの下で局所的な特徴を学習します。実験結果は、局所的な特徴の類似性を含めることで骨格ベースの活動表現が大幅に向上することを示しています。そして、我々の提案したSkeAttnCLRは、NTURGB+D、NTU120-RGB+D、PKU-MMDデータセットで、最先端の手法を上回る結果を示しました。

要約(オリジナル)

In recent years, remarkable results have been achieved in self-supervised action recognition using skeleton sequences with contrastive learning. It has been observed that the semantic distinction of human action features is often represented by local body parts, such as legs or hands, which are advantageous for skeleton-based action recognition. This paper proposes an attention-based contrastive learning framework for skeleton representation learning, called SkeAttnCLR, which integrates local similarity and global features for skeleton-based action representations. To achieve this, a multi-head attention mask module is employed to learn the soft attention mask features from the skeletons, suppressing non-salient local features while accentuating local salient features, thereby bringing similar local features closer in the feature space. Additionally, ample contrastive pairs are generated by expanding contrastive pairs based on salient and non-salient features with global features, which guide the network to learn the semantic representations of the entire skeleton. Therefore, with the attention mask mechanism, SkeAttnCLR learns local features under different data augmentation views. The experiment results demonstrate that the inclusion of local feature similarity significantly enhances skeleton-based action representation. Our proposed SkeAttnCLR outperforms state-of-the-art methods on NTURGB+D, NTU120-RGB+D, and PKU-MMD datasets.

arxiv情報

著者 Yilei Hua,Wenhan Wu,Ce Zheng,Aidong Lu,Mengyuan Liu,Chen Chen,Shiqian Wu
発行日 2023-05-11 07:26:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク