要約
単眼ビデオからワールド座標系で正確なスケールで人間とカメラの軌跡を推定することは、非常に望ましいことですが、困難で不適切な問題です。
この研究では、世界、人間、カメラという 3 つの重要なプレーヤー間の相乗効果を活用して、表現力豊かなパラメトリック人間モデル (SMPL-X) と対応するカメラのポーズを共同で復元することを目指しています。
私たちのアプローチは 2 つの重要な観察に基づいています。
まず、カメラ フレーム SMPL-X 推定手法は、人間の絶対的な奥行きを容易に回復します。
第二に、人間の動作は本質的に絶対的な空間的手がかりを提供します。
これらの洞察を統合することで、WHAC と呼ばれる新しいフレームワークを導入し、従来の最適化手法に依存することなく、世界に基づいた表現力豊かな人間の姿勢と形状の推定 (EHPS) をカメラの姿勢推定と並行して促進します。
さらに、新しい合成データセット WHAC-A-Mole を紹介します。これには、正確に注釈が付けられた人間とカメラが含まれており、人間の多様なインタラクティブな動きと現実的なカメラの軌跡が特徴です。
標準ベンチマークと新しく確立されたベンチマークの両方に関する広範な実験により、フレームワークの優位性と有効性が強調されています。
コードとデータセットは公開します。
要約(オリジナル)
Estimating human and camera trajectories with accurate scale in the world coordinate system from a monocular video is a highly desirable yet challenging and ill-posed problem. In this study, we aim to recover expressive parametric human models (i.e., SMPL-X) and corresponding camera poses jointly, by leveraging the synergy between three critical players: the world, the human, and the camera. Our approach is founded on two key observations. Firstly, camera-frame SMPL-X estimation methods readily recover absolute human depth. Secondly, human motions inherently provide absolute spatial cues. By integrating these insights, we introduce a novel framework, referred to as WHAC, to facilitate world-grounded expressive human pose and shape estimation (EHPS) alongside camera pose estimation, without relying on traditional optimization techniques. Additionally, we present a new synthetic dataset, WHAC-A-Mole, which includes accurately annotated humans and cameras, and features diverse interactive human motions as well as realistic camera trajectories. Extensive experiments on both standard and newly established benchmarks highlight the superiority and efficacy of our framework. We will make the code and dataset publicly available.
arxiv情報
著者 | Wanqi Yin,Zhongang Cai,Ruisi Wang,Fanzhou Wang,Chen Wei,Haiyi Mei,Weiye Xiao,Zhitao Yang,Qingping Sun,Atsushi Yamashita,Ziwei Liu,Lei Yang |
発行日 | 2024-03-19 17:58:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google