Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh Reconstruction

要約

単一ビューの RGB 画像を実際にキャリブレーションするのは難しいため、既存の 3D ヒューマン メッシュ再構成 (3DHMR) 手法では、一定の大きな焦点距離を使用するか、背景環境コンテキストに基づいて焦点距離を推定するかのいずれかが行われており、胴体の問題に取り組むことができません。
、カメラが人体に近づいたときに透視カメラの投影によって生じる手足、手、または顔の歪み。
焦点距離の単純な仮定により、誤って定式化された投影行列がこのタスクに悪影響を与える可能性があります。
これを解決するために、私たちは透視歪み画像に焦点を当てた最初の 3DHMR 手法である Zolly を提案します。
私たちのアプローチは、遠近感の歪みの原因を分析することから始まります。遠近感の歪みは、主にカメラの中心に対する人体の相対的な位置によって引き起こされることがわかりました。
我々は、新しいカメラ モデルと、人体の 2D の密な歪みスケールを記述する歪み画像と呼ばれる新しい 2D 表現を提案します。
次に、環境コンテキストの特徴ではなく、歪みスケールの特徴から距離を推定します。
その後、歪み特徴と画像特徴を統合して、身体メッシュを再構築します。
正しい投影行列を定式化し、人体の位置を特定するために、遠近法と弱遠近法投影損失を同時に使用します。
既存のデータセットではこのタスクを処理できないため、最初の合成データセット PDHuman を提案し、このタスク用に調整された 2 つの現実世界のデータセットを拡張します。これらのデータセットにはすべて、遠近法で歪んだ人間の画像が含まれています。
広範な実験により、Zolly が遠近法で歪んだデータセットと標準ベンチマーク (3DPW) の両方で既存の最先端の手法よりも優れたパフォーマンスを発揮することが示されています。

要約(オリジナル)

As it is hard to calibrate single-view RGB images in the wild, existing 3D human mesh reconstruction (3DHMR) methods either use a constant large focal length or estimate one based on the background environment context, which can not tackle the problem of the torso, limb, hand or face distortion caused by perspective camera projection when the camera is close to the human body. The naive focal length assumptions can harm this task with the incorrectly formulated projection matrices. To solve this, we propose Zolly, the first 3DHMR method focusing on perspective-distorted images. Our approach begins with analysing the reason for perspective distortion, which we find is mainly caused by the relative location of the human body to the camera center. We propose a new camera model and a novel 2D representation, termed distortion image, which describes the 2D dense distortion scale of the human body. We then estimate the distance from distortion scale features rather than environment context features. Afterwards, we integrate the distortion feature with image features to reconstruct the body mesh. To formulate the correct projection matrix and locate the human body position, we simultaneously use perspective and weak-perspective projection loss. Since existing datasets could not handle this task, we propose the first synthetic dataset PDHuman and extend two real-world datasets tailored for this task, all containing perspective-distorted human images. Extensive experiments show that Zolly outperforms existing state-of-the-art methods on both perspective-distorted datasets and the standard benchmark (3DPW).

arxiv情報

著者 Wenjia Wang,Yongtao Ge,Haiyi Mei,Zhongang Cai,Qingping Sun,Yanjun Wang,Chunhua Shen,Lei Yang,Taku Komura
発行日 2023-08-24 16:18:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク