SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network

要約

近年の技術の進歩により、3Dデータを活用することで人間の動作認識の可能性が広がり、奥行き情報を含めることで動作をより豊かに表現し、空間的・時間的特性をより正確に解析できるようになりました。
ただし、3D 人間の動作認識は、動作シーケンス内のデータ ポイントが不規則で配置されていないため、困難なタスクです。
これに関連して、スパイラル オート エンコーダーとトランスフォーマー ネットワーク、つまり SpATr に基づく固定トポロジー メッシュ シーケンスから人間の行動を認識するための新しいモデルを紹介します。
提案された方法は、まずメッシュ シーケンス内の空間と時間を解きほぐします。
次に、オートエンコーダーを使用して空間幾何学的特徴を抽出し、小さなトランスフォーマーを使用してシーケンスの時間的展開をキャプチャします。
以前の方法では、2D 深度画像やサンプル スケルトン ポイントを使用するか、大量のメモリを必要とするため、短いシーケンスしか処理できませんでした。
この研究では、固定トポロジーのメッシュデータに直接適用される軽量の畳み込みであるスパイラル畳み込みに基づいてオートエンコーダーを構築し、アテンションを使用して時間的進化をモデル化することで、競争力のある認識率と高いメモリ効率を示します。
大きなシーケンス。
提案された方法は、Archive of Motion Capture As Surface Shapes (AMASS) の MoVi と BMLrub という 2 つの 3D 人間の動作データセットで評価されます。
結果の分析により、高い記憶効率を維持しながら、3D 人間の動作認識における私たちの方法の有効性が示されました。
コードは間もなく公開される予定です。

要約(オリジナル)

Recent advancements in technology have expanded the possibilities of human action recognition by leveraging 3D data, which offers a richer representation of actions through the inclusion of depth information, enabling more accurate analysis of spatial and temporal characteristics. However, 3D human action recognition is a challenging task due to the irregularity and Disarrangement of the data points in action sequences. In this context, we present our novel model for human action recognition from fixed topology mesh sequences based on Spiral Auto-encoder and Transformer Network, namely SpATr. The proposed method first disentangles space and time in the mesh sequences. Then, an auto-encoder is utilized to extract spatial geometrical features, and tiny transformer is used to capture the temporal evolution of the sequence. Previous methods either use 2D depth images, sample skeletons points or they require a huge amount of memory leading to the ability to process short sequences only. In this work, we show competitive recognition rate and high memory efficiency by building our auto-encoder based on spiral convolutions, which are light weight convolution directly applied to mesh data with fixed topologies, and by modeling temporal evolution using a attention, that can handle large sequences. The proposed method is evaluated on on two 3D human action datasets: MoVi and BMLrub from the Archive of Motion Capture As Surface Shapes (AMASS). The results analysis shows the effectiveness of our method in 3D human action recognition while maintaining high memory efficiency. The code will soon be made publicly available.

arxiv情報

著者 Hamza Bouzid,Lahoucine Ballihi
発行日 2023-06-30 11:49:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.5.0 パーマリンク