要約
ウェアラブル センサーを使用した自己中心的な人間の姿勢推定 (HPE) は、VR/AR アプリケーションに不可欠です。
ほとんどの方法は、自己中心ビュー画像またはまばらな慣性測定ユニット (IMU) 信号のいずれかのみに依存しているため、画像内のセルフオクルージョンや慣性センサーのまばらさやドリフトによる不正確さが生じます。
最も重要なことは、両方のモダリティを含む現実世界のデータセットが不足していることが、この分野の進歩に対する大きな障害となっているということです。
この障壁を克服するために、我々は \textbf{H} ヘッドマウント ディスプレイ (HMD) と身体装着型 \textbf{I}MU を備えたマルチモーダル \textbf{E} ゴセントリックな人間 \textbf{M} オプション データセットである EMHI を提案します。
実際の VR 製品スイートで収集されたすべてのデータ。
具体的には、EMHI は、SMPL 形式の姿勢注釈とともに、ヘッドセット上の下向きカメラからの同期ステレオ画像と身体装着センサーからの IMU データを提供します。
このデータセットは、39 のアクションを実行する 58 人の被験者によってキャプチャされた 885 のシーケンスで構成されており、合計約 28.5 時間の記録になります。
注釈を光学マーカーベースの SMPL フィッティング結果と比較することで評価します。
データセットの信頼性を実証するために、マルチモーダル自己中心 HPE の新しいベースライン手法である MEPoser を導入します。これは、マルチモーダル フュージョン エンコーダー、時間特徴エンコーダー、および MLP ベースの回帰ヘッドを採用します。
EMHI の実験では、MEPoser が既存のシングルモーダル手法よりも優れたパフォーマンスを示し、自己中心的な HPE の問題を解決する際のデータセットの価値を実証しました。
私たちは、EMHI とその手法のリリースにより、自己中心的な HPE の研究が前進し、VR/AR 製品へのこのテクノロジーの実用化が促進されると考えています。
要約(オリジナル)
Egocentric human pose estimation (HPE) using wearable sensors is essential for VR/AR applications. Most methods rely solely on either egocentric-view images or sparse Inertial Measurement Unit (IMU) signals, leading to inaccuracies due to self-occlusion in images or the sparseness and drift of inertial sensors. Most importantly, the lack of real-world datasets containing both modalities is a major obstacle to progress in this field. To overcome the barrier, we propose EMHI, a multimodal \textbf{E}gocentric human \textbf{M}otion dataset with \textbf{H}ead-Mounted Display (HMD) and body-worn \textbf{I}MUs, with all data collected under the real VR product suite. Specifically, EMHI provides synchronized stereo images from downward-sloping cameras on the headset and IMU data from body-worn sensors, along with pose annotations in SMPL format. This dataset consists of 885 sequences captured by 58 subjects performing 39 actions, totaling about 28.5 hours of recording. We evaluate the annotations by comparing them with optical marker-based SMPL fitting results. To substantiate the reliability of our dataset, we introduce MEPoser, a new baseline method for multimodal egocentric HPE, which employs a multimodal fusion encoder, temporal feature encoder, and MLP-based regression heads. The experiments on EMHI show that MEPoser outperforms existing single-modal methods and demonstrates the value of our dataset in solving the problem of egocentric HPE. We believe the release of EMHI and the method could advance the research of egocentric HPE and expedite the practical implementation of this technology in VR/AR products.
arxiv情報
著者 | Zhen Fan,Peng Dai,Zhuo Su,Xu Gao,Zheng Lv,Jiarui Zhang,Tianyuan Du,Guidong Wang,Yang Zhang |
発行日 | 2024-08-30 10:12:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google