要約
ヘッドマウントデバイスから人間の動作を推定するシステム EgoAllo を紹介します。
EgoAllo は、自己中心的な SLAM ポーズと画像のみを使用して、条件付き拡散モデルからのサンプリングをガイドして、シーンの自己中心的な座標フレームでデバイス装着者の動作をキャプチャする 3D 体の姿勢、身長、手のパラメータを推定します。
これを達成するために、私たちの重要な洞察は表現にあります。モデルのパフォーマンスを向上させるための空間的および時間的不変基準を提案し、そこから推定を最大 18% 改善する頭部運動調整パラメーター化を導き出します。
また、私たちのシステムによって推定された物体が手作業による推定をどのように改善できるかについても示します。結果として生じる運動学的および時間的制約により、単一フレーム推定におけるワールド フレーム エラーが 40% 削減されます。
プロジェクトページ:https://egoallo.github.io/
要約(オリジナル)
We present EgoAllo, a system for human motion estimation from a head-mounted device. Using only egocentric SLAM poses and images, EgoAllo guides sampling from a conditional diffusion model to estimate 3D body pose, height, and hand parameters that capture a device wearer’s actions in the allocentric coordinate frame of the scene. To achieve this, our key insight is in representation: we propose spatial and temporal invariance criteria for improving model performance, from which we derive a head motion conditioning parameterization that improves estimation by up to 18%. We also show how the bodies estimated by our system can improve hand estimation: the resulting kinematic and temporal constraints can reduce world-frame errors in single-frame estimates by 40%. Project page: https://egoallo.github.io/
arxiv情報
著者 | Brent Yi,Vickie Ye,Maya Zheng,Yunqi Li,Lea Müller,Georgios Pavlakos,Yi Ma,Jitendra Malik,Angjoo Kanazawa |
発行日 | 2024-12-17 18:39:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google