3DInAction: Understanding Human Actions in 3D Point Clouds

要約

我々は、3D点群アクション認識のための新しい方法を提案します。
RGB ビデオにおける人間の動作の理解は、近年広く研究されていますが、それに対応する 3D 点群についてはまだ研究が進んでいません。
これは主に、点群データ モダリティの固有の制限 (構造の欠如、順列の不変性、点の数の変化) が原因であり、時空間表現の学習が困難になります。
この制限に対処するために、有益な時空間表現を学習する階層アーキテクチャと並行して、時間内に移動するパッチ (t パッチ) を主要な構成要素として最初に推定する 3DinAction パイプラインを提案します。
私たちの方法により、DFAUST や IKEA ASM などの既存のデータセットのパフォーマンスが向上することを示します。
コードは https://github.com/sitzikbs/3dincaction で公開されています。

要約(オリジナル)

We propose a novel method for 3D point cloud action recognition. Understanding human actions in RGB videos has been widely studied in recent years, however, its 3D point cloud counterpart remains under-explored. This is mostly due to the inherent limitation of the point cloud data modality — lack of structure, permutation invariance, and varying number of points — which makes it difficult to learn a spatio-temporal representation. To address this limitation, we propose the 3DinAction pipeline that first estimates patches moving in time (t-patches) as a key building block, alongside a hierarchical architecture that learns an informative spatio-temporal representation. We show that our method achieves improved performance on existing datasets, including DFAUST and IKEA ASM. Code is publicly available at https://github.com/sitzikbs/3dincaction.

arxiv情報

著者 Yizhak Ben-Shabat,Oren Shrout,Stephen Gould
発行日 2024-03-29 15:10:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク