ReL-SAR: Representation Learning for Skeleton Action Recognition with Convolutional Transformers and BYOL

要約

堅牢で一般化可能なスケルトン アクション認識特徴を抽出するには、通常、十分に厳選された大量のデータが必要ですが、これはアノテーションと計算コストによって妨げられる困難なタスクです。
したがって、ラベルなしのスケルトン データを活用するには、教師なし表現学習が最も重要です。
この研究では、スケルトンのアクション認識のための教師なし表現学習を調査します。
この目的のために、私たちは ReL-SAR という名前の軽量の畳み込み変換フレームワークを設計しました。これは、スケルトン シーケンスの空間的および時間的キューを共同モデリングするために畳み込み層とアテンション層の相補性を利用します。
また、骨格データからより有益な記述を確保するために、骨格ジョイントに対して選択置換戦略を使用します。
最後に、Bootstrap Your Own Latent (BYOL) を利用して、ラベルのないスケルトン シーケンス データから堅牢な表現を学習します。
私たちは、MCAD、IXMAS、JHMDB、NW-UCLA などの限られたサイズのデータ​​セットで非常に競争力のある結果を達成し、パフォーマンスと計算効率の両方の点で、最先端の方法に対して提案した方法の有効性を示しました。
再現性と再利用性を確保するために、すべての実装パラメータを含むソース コードは、https://github.com/SafwenNaimi/Representation-Learning-for-Skeleton-Action-Recognition-with-Convolutional-Transformers-and-BYOL で提供されています。

要約(オリジナル)

To extract robust and generalizable skeleton action recognition features, large amounts of well-curated data are typically required, which is a challenging task hindered by annotation and computation costs. Therefore, unsupervised representation learning is of prime importance to leverage unlabeled skeleton data. In this work, we investigate unsupervised representation learning for skeleton action recognition. For this purpose, we designed a lightweight convolutional transformer framework, named ReL-SAR, exploiting the complementarity of convolutional and attention layers for jointly modeling spatial and temporal cues in skeleton sequences. We also use a Selection-Permutation strategy for skeleton joints to ensure more informative descriptions from skeletal data. Finally, we capitalize on Bootstrap Your Own Latent (BYOL) to learn robust representations from unlabeled skeleton sequence data. We achieved very competitive results on limited-size datasets: MCAD, IXMAS, JHMDB, and NW-UCLA, showing the effectiveness of our proposed method against state-of-the-art methods in terms of both performance and computational efficiency. To ensure reproducibility and reusability, the source code including all implementation parameters is provided at: https://github.com/SafwenNaimi/Representation-Learning-for-Skeleton-Action-Recognition-with-Convolutional-Transformers-and-BYOL

arxiv情報

著者 Safwen Naimi,Wassim Bouachir,Guillaume-Alexandre Bilodeau
発行日 2024-09-09 16:03:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク