EPOCH: Jointly Estimating the 3D Pose of Cameras and Humans

要約

単眼人間姿勢推定 (HPE) は、カメラでキャプチャされた単一の 2D 画像から人間の関節の 3D 位置を決定することを目的としています。
ただし、画像内の 1 つの 2D 点が 3D 空間内の複数の点に対応する場合があります。
通常、2D-3D 関係の一意性は、正投影カメラ モデルまたは弱透視カメラ モデルを使用して近似されます。
この研究では、近似に依存する代わりに、全透視カメラ モデルを利用することを主張します。
これには、カメラのパラメータを推定し、正確で明確な 2D-3D 関係を確立することが含まれます。
これを行うために、ポーズ リフター ネットワーク (LiftNet) とポーズ リグレッサー ネットワーク (RegNet) という 2 つの主要コンポーネントで構成される EPOCH フレームワークを導入します。
LiftNet は、完全なパースペクティブ カメラ モデルを利用して、教師なしの方法で 3D ポーズを正確に推定します。
2D ポーズとカメラ パラメーターを入力として受け取り、対応する 3D ポーズ推定を生成します。
これらの入力は RegNet から取得されます。RegNet は 1 つの画像から開始して 2D ポーズとカメラ パラメーターの推定値を提供します。
RegNet は、弱い監視として 2D ポーズ データのみを利用します。
RegNet は内部的に 3D ポーズを予測し、推定されたカメラ パラメーターを使用して 2D に投影します。
このプロセスにより、RegNet は明確な 2D-3D 関係を確立できるようになります。
私たちの実験では、カメラインザループを使用した教師なしタスクとしてリフティングをモデル化すると、目に見えないデータをより適切に一般化できることがわかりました。
Human3.6M および MPI-INF-3DHP データセットで 3D HPE の最先端の結果が得られます。
私たちのコードは次の場所から入手できます: [承諾時の Github リンク、補足資料を参照]。

要約(オリジナル)

Monocular Human Pose Estimation (HPE) aims at determining the 3D positions of human joints from a single 2D image captured by a camera. However, a single 2D point in the image may correspond to multiple points in 3D space. Typically, the uniqueness of the 2D-3D relationship is approximated using an orthographic or weak-perspective camera model. In this study, instead of relying on approximations, we advocate for utilizing the full perspective camera model. This involves estimating camera parameters and establishing a precise, unambiguous 2D-3D relationship. To do so, we introduce the EPOCH framework, comprising two main components: the pose lifter network (LiftNet) and the pose regressor network (RegNet). LiftNet utilizes the full perspective camera model to precisely estimate the 3D pose in an unsupervised manner. It takes a 2D pose and camera parameters as inputs and produces the corresponding 3D pose estimation. These inputs are obtained from RegNet, which starts from a single image and provides estimates for the 2D pose and camera parameters. RegNet utilizes only 2D pose data as weak supervision. Internally, RegNet predicts a 3D pose, which is then projected to 2D using the estimated camera parameters. This process enables RegNet to establish the unambiguous 2D-3D relationship. Our experiments show that modeling the lifting as an unsupervised task with a camera in-the-loop results in better generalization to unseen data. We obtain state-of-the-art results for the 3D HPE on the Human3.6M and MPI-INF-3DHP datasets. Our code is available at: [Github link upon acceptance, see supplementary materials].

arxiv情報

著者 Nicola Garau,Giulia Martinelli,Niccolò Bisagno,Denis Tomè,Carsten Stoll
発行日 2024-06-28 08:16:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク