Self-supervised 3D Human Pose Estimation from a Single Image

要約

タイトル:単一の画像からの自己教師あり3D人体姿勢推定

要約:

– 単一の画像から3D人体姿勢を予測する新しい自己教師あり方法を提案する。
– 予測ネットワークは、典型的な姿勢をとる人々の画像と、対になっていない2D姿勢のデータセットからトレーニングされる。
– 注釈付きのデータ量を最小限に抑えることで、アプリケーションを迅速に他の関節構造(例:動物)の姿勢推定に適用する可能性がある。
– 自己監督は、3D回転下で予測された姿勢の一貫性を利用した以前のアイデアによるものである。
– 当社の方法は、関節制約や任意の3D実験的なポーズ先行条件なしで、直接画像からのマッピングのトレーニングにおいて最先端の自己教師あり方法において重大な進歩である。
– 画像とグラウンドトゥルースの3Dポーズを提供するベンチマークデータセット(Human3.6M、MPI-INF-3DHP)を使用して、最先端の自己教師あり方法との性能比較を行った。
– 注釈付きデータ要件が低減されたにもかかわらず、当社の方法はHuman3.6Mで優れた性能を発揮し、MPI-INF-3DHPで性能を一致させることを示した。
– 人間の手のデータセットに対する定性的な結果は、人間以外の関節構造の3Dポーズを迅速に予測することの可能性を示している。

要約(オリジナル)

We propose a new self-supervised method for predicting 3D human body pose from a single image. The prediction network is trained from a dataset of unlabelled images depicting people in typical poses and a set of unpaired 2D poses. By minimising the need for annotated data, the method has the potential for rapid application to pose estimation of other articulated structures (e.g. animals). The self-supervision comes from an earlier idea exploiting consistency between predicted pose under 3D rotation. Our method is a substantial advance on state-of-the-art self-supervised methods in training a mapping directly from images, without limb articulation constraints or any 3D empirical pose prior. We compare performance with state-of-the-art self-supervised methods using benchmark datasets that provide images and ground-truth 3D pose (Human3.6M, MPI-INF-3DHP). Despite the reduced requirement for annotated data, we show that the method outperforms on Human3.6M and matches performance on MPI-INF-3DHP. Qualitative results on a dataset of human hands show the potential for rapidly learning to predict 3D pose for articulated structures other than the human body.

arxiv情報

著者 Jose Sosa,David Hogg
発行日 2023-04-05 10:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク