Unsupervised Multi-Person 3D Human Pose Estimation From 2D Poses Alone

要約

現在の教師なし 2D-3D 人間姿勢推定 (HPE) 手法は、単眼画像の遠近感が曖昧であるため、複数人のシナリオでは機能しません。
したがって、人間のインタラクションの再構築に焦点を当て、2D ポーズのみから教師なしの複数人の 2D-3D HPE の実現可能性を調査した最初の研究の 1 つを紹介します。
視点の曖昧さの問題に対処するために、被験者の骨盤に対するカメラの仰角を予測することで以前の研究を拡張しました。
これにより、個人間の 3D での垂直方向のオフセットの推定値を取得しながら、予測されたポーズを回転して地面と同じ高さにすることができます。
私たちの方法では、共有の 3D 座標系で結合する前に、各被験者の 2D ポーズを個別に 3D に持ち上げます。
次に、スケーリングされる前に、ポーズが回転され、予測された仰角によってオフセットされます。
これだけで、ポーズの正確な 3D 再構成を取得できるようになります。
CHI3D データセットに関する結果を紹介し、3 つの新しい定量的指標による教師なし 2D-3D 姿勢推定へのその使用法を紹介し、将来の研究のためのベンチマークを確立します。

要約(オリジナル)

Current unsupervised 2D-3D human pose estimation (HPE) methods do not work in multi-person scenarios due to perspective ambiguity in monocular images. Therefore, we present one of the first studies investigating the feasibility of unsupervised multi-person 2D-3D HPE from just 2D poses alone, focusing on reconstructing human interactions. To address the issue of perspective ambiguity, we expand upon prior work by predicting the cameras’ elevation angle relative to the subjects’ pelvis. This allows us to rotate the predicted poses to be level with the ground plane, while obtaining an estimate for the vertical offset in 3D between individuals. Our method involves independently lifting each subject’s 2D pose to 3D, before combining them in a shared 3D coordinate system. The poses are then rotated and offset by the predicted elevation angle before being scaled. This by itself enables us to retrieve an accurate 3D reconstruction of their poses. We present our results on the CHI3D dataset, introducing its use for unsupervised 2D-3D pose estimation with three new quantitative metrics, and establishing a benchmark for future research.

arxiv情報

著者 Peter Hardy,Hansung Kim
発行日 2024-03-12 17:45:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク