Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors

要約

全身仮想表現をサポートするモーションキャプチャシステムは、仮想現実にとって重要な重要性です。
ビジョンベースのシステムと比較して、まばらな追跡信号からの全身ポーズ推定は、環境条件や記録範囲によって制限されません。
ただし、以前の作品は、骨盤と下半身に追加のセンサーを着用するという課題に直面するか、外部の視覚センサーに依存して主要なジョイントのグローバルな位置を取得しています。
仮想現実アプリケーションのテクノロジーの実用性を向上させるために、頭と手首に着用した3つの慣性測定ユニット(IMU)センサーから得られた慣性データのみを使用して、フルボディポーズを推定し、それによりハードウェアシステムの複雑さが減少します。
この作業では、ニューラルネットワークの推定と人間のダイナミクスモデルを組み合わせた人間のポーズ推定のためのプログレッシブ慣性Poser(Progip)と呼ばれる方法を提案し、運動系チェーンの階層構造を考慮し、多段階の進行性ネットワーク推定を使用して深さを増やして、全身の動きをリアルタイムで再構築します。
エンコーダーはトランスエンコーダーと双方向LSTM(TE-BILSTM)を組み合わせて慣性シーケンスの時間的依存性を柔軟にキャプチャしますが、マルチ層パーセプロン(MLPS)に基づくデコーダーは高次元の特徴を変換し、皮膚のマルチペーソンの線形(SMPL)モデルパラメーターに正確に投影します。
複数のパブリックデータセットでの定量的および定性的な実験結果は、この方法が同じ入力で最先端の方法を上回り、6つのIMUセンサーを使用した最近の作品に匹敵することを示しています。

要約(オリジナル)

The motion capture system that supports full-body virtual representation is of key significance for virtual reality. Compared to vision-based systems, full-body pose estimation from sparse tracking signals is not limited by environmental conditions or recording range. However, previous works either face the challenge of wearing additional sensors on the pelvis and lower-body or rely on external visual sensors to obtain global positions of key joints. To improve the practicality of the technology for virtual reality applications, we estimate full-body poses using only inertial data obtained from three Inertial Measurement Unit (IMU) sensors worn on the head and wrists, thereby reducing the complexity of the hardware system. In this work, we propose a method called Progressive Inertial Poser (ProgIP) for human pose estimation, which combines neural network estimation with a human dynamics model, considers the hierarchical structure of the kinematic chain, and employs a multi-stage progressive network estimation with increased depth to reconstruct full-body motion in real time. The encoder combines Transformer Encoder and bidirectional LSTM (TE-biLSTM) to flexibly capture the temporal dependencies of the inertial sequence, while the decoder based on multi-layer perceptrons (MLPs) transforms high-dimensional features and accurately projects them onto Skinned Multi-Person Linear (SMPL) model parameters. Quantitative and qualitative experimental results on multiple public datasets show that our method outperforms state-of-the-art methods with the same inputs, and is comparable to recent works using six IMU sensors.

arxiv情報

著者 Zunjie Zhu,Yan Zhao,Yihan Hu,Guoxiang Wang,Hai Qiu,Bolun Zheng,Chenggang Yan,Feng Xu
発行日 2025-05-08 15:28:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク