STARS: Self-supervised Tuning for 3D Action Recognition in Skeleton Sequences

要約

マスクされた予測を使用した自己教師あり事前トレーニング手法は、スケルトンベースのアクション認識におけるデータセット内での顕著なパフォーマンスを実証します。
ただし、対照学習アプローチとは異なり、それらは十分に分離されたクラスターを生成しないことを示します。
さらに、これらの方法は、ショット数が少ない設定では一般化に苦労します。
これらの問題に対処するために、スケルトン シーケンスにおける 3D アクション認識のための自己教師ありチューニング (STARS) を提案します。
具体的には、STARS はまず、エンコーダ/デコーダ アーキテクチャを使用したマスクされた予測ステージを使用します。
次に、最近傍対照学習を使用してエンコーダーの重みを部分的に調整し、さまざまなアクションのセマンティック クラスターの形成を強化します。
STARS は、手作りのデータ拡張を使用せずにエンコーダを数エポックに調整することにより、NTU-60、NTU-120、PKU-MMD などのさまざまなベンチマークで最先端の自己教師あり結果を達成します。
さらに、STARS は、モデルが事前トレーニングを通じてアクションを確認していない少数ショット設定では、マスクされた予測モデルよりも大幅に優れた結果を示します。
プロジェクトページ:https://soroushmehraban.github.io/stars/

要約(オリジナル)

Self-supervised pretraining methods with masked prediction demonstrate remarkable within-dataset performance in skeleton-based action recognition. However, we show that, unlike contrastive learning approaches, they do not produce well-separated clusters. Additionally, these methods struggle with generalization in few-shot settings. To address these issues, we propose Self-supervised Tuning for 3D Action Recognition in Skeleton sequences (STARS). Specifically, STARS first uses a masked prediction stage using an encoder-decoder architecture. It then employs nearest-neighbor contrastive learning to partially tune the weights of the encoder, enhancing the formation of semantic clusters for different actions. By tuning the encoder for a few epochs, and without using hand-crafted data augmentations, STARS achieves state-of-the-art self-supervised results in various benchmarks, including NTU-60, NTU-120, and PKU-MMD. In addition, STARS exhibits significantly better results than masked prediction models in few-shot settings, where the model has not seen the actions throughout pretraining. Project page: https://soroushmehraban.github.io/stars/

arxiv情報

著者 Soroush Mehraban,Mohammad Javad Rajabi,Babak Taati
発行日 2024-07-15 17:35:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク