A Dual-Masked Auto-Encoder for Robust Motion Capture with Spatial-Temporal Skeletal Token Completion

要約

重度のオクルージョン、速い体の動き、複雑な相互作用によって引き起こされるあいまいさのために、複数人のモーションキャプチャは困難な場合があります。
既存のフレームワークは、2Dポーズの推定に基づいて構築され、マルチカメラ観測間の外観、軌道、および幾何学的一貫性を推論することにより、3D座標に三角測量します。
ただし、2Dジョイントの検出は通常不完全であり、観測角度が制限されているためにIDの割り当てが間違っているため、3Dの三角測量の結果にノイズが発生します。
この問題を克服するために、トランスフォーマーを使用して骨格運動の短距離自己回帰特性を調査することを提案します。
最初に、3Dジョイントを再構築し、各IDの欠落しているジョイントを識別するための適応型のID認識三角測量モジュールを提案します。
次に、完全な3D骨格運動を生成するために、軌道の完成のために骨格構造と時間的位置の両方のエンコードで関節の状態をエンコードするデュアルマスクオートエンコーダー(D-MAE)を提案します。
D-MAEの柔軟なマスキングおよびエンコーディングメカニズムにより、任意のスケルトン定義を同じフレームワークの下で便利に展開できます。
重度のデータ損失シナリオを処理する際の提案されたモデルの機能を実証するために、重度の閉塞を伴う複数人の相互作用の高精度で挑戦的なモーションキャプチャデータセットを提供します。
ベンチマークと新しいデータセットの両方の評価は、提案されたモデルの効率と、他の最先端の方法に対するその利点を示しています。

要約(オリジナル)

Multi-person motion capture can be challenging due to ambiguities caused by severe occlusion, fast body movement, and complex interactions. Existing frameworks build on 2D pose estimations and triangulate to 3D coordinates via reasoning the appearance, trajectory, and geometric consistencies among multi-camera observations. However, 2D joint detection is usually incomplete and with wrong identity assignments due to limited observation angle, which leads to noisy 3D triangulation results. To overcome this issue, we propose to explore the short-range autoregressive characteristics of skeletal motion using transformer. First, we propose an adaptive, identity-aware triangulation module to reconstruct 3D joints and identify the missing joints for each identity. To generate complete 3D skeletal motion, we then propose a Dual-Masked Auto-Encoder (D-MAE) which encodes the joint status with both skeletal-structural and temporal position encoding for trajectory completion. D-MAE’s flexible masking and encoding mechanism enable arbitrary skeleton definitions to be conveniently deployed under the same framework. In order to demonstrate the proposed model’s capability in dealing with severe data loss scenarios, we contribute a high-accuracy and challenging motion capture dataset of multi-person interactions with severe occlusion. Evaluations on both benchmark and our new dataset demonstrate the efficiency of our proposed model, as well as its advantage against the other state-of-the-art methods.

arxiv情報

著者 Junkun Jiang,Jie Chen,Yike Guo
発行日 2022-07-15 10:00:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク