MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point Cloud Action Recognition

要約

点群ビデオから人間の行動を認識することは、自動運転、ロボット工学などの幅広いアプリケーションにより、学界と産業界の両方から多大な注目を集めています。
ただし、点群アクション認識の現在の方法は、通常、手動の注釈を含む大量のデータと、計算コストの高い複雑なバックボーン ネットワークを必要とするため、実際のアプリケーションには実用的ではありません。
したがって、この論文では、半教師付き点群アクション認識のタスクを検討します。
点群アクション認識のためのはるかに少ない注釈で効果的な表現を学習するために、Masked Pseudo-Labeling autoEncoder (\textbf{MAPLE}) フレームワークを提案します。
特に、MAPLE のバックボーンとして、斬新で効率的な \textbf{De}coupled \textbf{s}patial-\textbf{t}emporal Trans\textbf{Former} (\textbf{DestFormer}) を設計します。
DestFormer では、4D 点群ビデオの空間次元と時間次元が分離されて、長期的および短期的な特徴の両方を学習するための効率的な自己注意を実現します。
さらに、より少ない注釈から識別機能を学習するために、マスクされた疑似ラベル付けオートエンコーダー構造を設計して、DestFormer が利用可能なフレームからマスクされたフレームの機能を再構築するようにします。
さらに重要なことは、ラベルのないデータの場合、マスクされたフレームから特徴を再構築するための監視信号として、分類ヘッドからの疑似ラベルを利用することです。
最後に、総合的な実験により、MAPLE が 3 つの公開ベンチマークで優れた結果を達成し、MSR-Action3D データセットで 8.08\% の精度で最先端の方法より優れていることが実証されました。

要約(オリジナル)

Recognizing human actions from point cloud videos has attracted tremendous attention from both academia and industry due to its wide applications like automatic driving, robotics, and so on. However, current methods for point cloud action recognition usually require a huge amount of data with manual annotations and a complex backbone network with high computation costs, which makes it impractical for real-world applications. Therefore, this paper considers the task of semi-supervised point cloud action recognition. We propose a Masked Pseudo-Labeling autoEncoder (\textbf{MAPLE}) framework to learn effective representations with much fewer annotations for point cloud action recognition. In particular, we design a novel and efficient \textbf{De}coupled \textbf{s}patial-\textbf{t}emporal Trans\textbf{Former} (\textbf{DestFormer}) as the backbone of MAPLE. In DestFormer, the spatial and temporal dimensions of the 4D point cloud videos are decoupled to achieve efficient self-attention for learning both long-term and short-term features. Moreover, to learn discriminative features from fewer annotations, we design a masked pseudo-labeling autoencoder structure to guide the DestFormer to reconstruct features of masked frames from the available frames. More importantly, for unlabeled data, we exploit the pseudo-labels from the classification head as the supervision signal for the reconstruction of features from the masked frames. Finally, comprehensive experiments demonstrate that MAPLE achieves superior results on three public benchmarks and outperforms the state-of-the-art method by 8.08\% accuracy on the MSR-Action3D dataset.

arxiv情報

著者 Xiaodong Chen,Wu Liu,Xinchen Liu,Yongdong Zhang,Jungong Han,Tao Mei
発行日 2022-09-01 12:32:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク