SPEC: Seeing People in the Wild with an Estimated Camera


野生の画像のカメラ パラメーター情報が不足しているため、既存の 3D 人間の姿勢と形状 (HPS) の推定方法では、いくつかの単純化された仮定が行われます: 弱い透視投影、大きな一定の焦点距離、カメラの回転ゼロ。
これらの仮定はしばしば成り立たず、再構成された 3D 形状とポーズにエラーが生じることを定量的および定性的に示します。
これに対処するために、SPEC を導入します。これは、単一の画像から遠近法カメラを推定し、これを使用して 3D 人体をより正確に再構築する、世界初の 3D HPS 方法です。
まず、ニューラル ネットワークをトレーニングして、与えられた入力画像から視野、カメラ ピッチ、ロールを推定します。
次に、カメラのキャリブレーションを画像の特徴に連結し、これらを一緒に使用して 3D の体型とポーズを回帰させる新しいネットワークをトレーニングします。
SPEC は、標準ベンチマーク (3DPW) と、より挑戦的なカメラ ビューとさまざまな焦点距離を持つ 2 つの新しいデータセットで、従来技術よりも正確です。
具体的には、グラウンド トゥルース 3D ボディを含む新しいフォトリアリスティックな合成データセット (SPEC-SYN) と、キャリブレーションと高品質のリファレンス ボディを含む新しいイン ザ ワイルド データセット (SPEC-MTP) を作成します。
コードとデータセットは、https://spec.is.tue.mpg.de で研究目的で利用できます。


Due to the lack of camera parameter information for in-the-wild images, existing 3D human pose and shape (HPS) estimation methods make several simplifying assumptions: weak-perspective projection, large constant focal length, and zero camera rotation. These assumptions often do not hold and we show, quantitatively and qualitatively, that they cause errors in the reconstructed 3D shape and pose. To address this, we introduce SPEC, the first in-the-wild 3D HPS method that estimates the perspective camera from a single image and employs this to reconstruct 3D human bodies more accurately. First, we train a neural network to estimate the field of view, camera pitch, and roll given an input image. We employ novel losses that improve the calibration accuracy over previous work. We then train a novel network that concatenates the camera calibration to the image features and uses these together to regress 3D body shape and pose. SPEC is more accurate than the prior art on the standard benchmark (3DPW) as well as two new datasets with more challenging camera views and varying focal lengths. Specifically, we create a new photorealistic synthetic dataset (SPEC-SYN) with ground truth 3D bodies and a novel in-the-wild dataset (SPEC-MTP) with calibration and high-quality reference bodies. Both qualitative and quantitative analysis confirm that knowing camera parameters during inference regresses better human bodies. Code and datasets are available for research purposes at https://spec.is.tue.mpg.de.


著者 Muhammed Kocabas,Chun-Hao P. Huang,Joachim Tesch,Lea Müller,Otmar Hilliges,Michael J. Black
発行日 2022-11-01 16:13:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク