要約
単眼ビデオから世界を基準とした人間の動きを復元するための新しい方法を紹介します。
主な課題は、シーケンス間で異なる世界座標系の定義の曖昧さにあります。
これまでのアプローチでは、自己回帰的な方法で相対運動を予測することでこの問題を軽減しようとしましたが、誤差が蓄積する傾向がありました。
代わりに、世界の重力とカメラの視点方向によって定義される新しい Gravity-View (GV) 座標系で人間のポーズを推定することを提案します。
提案された GV システムは、自然に重力調整され、ビデオ フレームごとに一意に定義されるため、画像と姿勢のマッピングを学習する際の曖昧さが大幅に軽減されます。
推定されたポーズは、カメラの回転を使用してワールド座標系に変換して戻すことができ、グローバル モーション シーケンスを形成します。
さらに、フレームごとの推定により、自己回帰手法での誤差の蓄積が回避されます。
実地ベンチマークでの実験では、私たちの方法がカメラ空間と世界に根ざした設定の両方でより現実的な動きを復元し、精度と速度の両方で最先端の方法を上回っていることが実証されました。
コードは https://zju3dv.github.io/gvhmr/ で入手できます。
要約(オリジナル)
We present a novel method for recovering world-grounded human motion from monocular video. The main challenge lies in the ambiguity of defining the world coordinate system, which varies between sequences. Previous approaches attempt to alleviate this issue by predicting relative motion in an autoregressive manner, but are prone to accumulating errors. Instead, we propose estimating human poses in a novel Gravity-View (GV) coordinate system, which is defined by the world gravity and the camera view direction. The proposed GV system is naturally gravity-aligned and uniquely defined for each video frame, largely reducing the ambiguity of learning image-pose mapping. The estimated poses can be transformed back to the world coordinate system using camera rotations, forming a global motion sequence. Additionally, the per-frame estimation avoids error accumulation in the autoregressive methods. Experiments on in-the-wild benchmarks demonstrate that our method recovers more realistic motion in both the camera space and world-grounded settings, outperforming state-of-the-art methods in both accuracy and speed. The code is available at https://zju3dv.github.io/gvhmr/.
arxiv情報
著者 | Zehong Shen,Huaijin Pi,Yan Xia,Zhi Cen,Sida Peng,Zechen Hu,Hujun Bao,Ruizhen Hu,Xiaowei Zhou |
発行日 | 2024-09-10 17:25:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google