Estimating Body and Hand Motion in an Ego-sensed World

要約

我々は、ヘッドマウントデバイスから人間の動きを推定するシステムEgoAlloを発表する。エゴセントリックなSLAMポーズと画像のみを用いて、EgoAlloは条件付き拡散モデルからのサンプリングをガイドし、シーンのアロセントリックな座標フレームにおける装着者の行動を捉える3D身体ポーズ、身長、手のパラメータを推定する。これを実現するために、我々の重要な洞察は表現にある。我々は、モデルの性能を向上させるための空間的・時間的不変性基準を提案し、そこから、推定を最大18%向上させる頭部運動条件付けパラメータ化を導出する。また、我々のシステムによって推定された身体が、どのように手を改善することができるかを示す。結果として得られる運動学的および時間的制約により、ノイズの多い単眼推定と比較して、手の推定誤差が40%以上減少する。プロジェクトページ: https://egoallo.github.io/

要約(オリジナル)

We present EgoAllo, a system for human motion estimation from a head-mounted device. Using only egocentric SLAM poses and images, EgoAllo guides sampling from a conditional diffusion model to estimate 3D body pose, height, and hand parameters that capture the wearer’s actions in the allocentric coordinate frame of the scene. To achieve this, our key insight is in representation: we propose spatial and temporal invariance criteria for improving model performance, from which we derive a head motion conditioning parameterization that improves estimation by up to 18%. We also show how the bodies estimated by our system can improve the hands: the resulting kinematic and temporal constraints result in over 40% lower hand estimation errors compared to noisy monocular estimates. Project page: https://egoallo.github.io/

arxiv情報

著者 Brent Yi,Vickie Ye,Maya Zheng,Lea Müller,Georgios Pavlakos,Yi Ma,Jitendra Malik,Angjoo Kanazawa
発行日 2024-10-04 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク