要約
マルチビュー 3D 人間の姿勢推定は、当然ながら単一ビューの推定よりも優れており、複数ビューの画像によって提供されるより包括的な情報の恩恵を受けます。
この情報には、カメラのポーズ、2D/3D 人間のポーズ、3D ジオメトリが含まれます。
ただし、これらの情報の正確な注釈を取得するのは難しく、多視点画像から正確な 3D 人間の姿勢を予測することが困難になります。
この問題に対処するために、我々は、カスケード マルチビュー集約ネットワーク (CMANet) と呼ばれる完全に自己監視されたフレームワークを提案し、マルチビュー情報を全体的に統合して活用するための標準パラメータ空間を構築します。
私たちのフレームワークでは、マルチビュー情報は、1) ビュー内情報、2) ビュー間情報の 2 つのカテゴリにグループ化されます。
したがって、CMANet は、イントラビュー モジュール (IRV) とインタービュー モジュール (IEV) の 2 つのコンポーネントで構成されます。
IRV は、各ビューの初期カメラ ポーズと 3D 人間のポーズを抽出するために使用されます。
IEV は、相補的なポーズ情報とクロスビュー 3D ジオメトリを融合して、最終的な 3D 人間のポーズを作成します。
ビュー内およびビュー間の集約を容易にするために、SMPL モデルのビューごとのカメラのポーズと人間のポーズおよび形状パラメータ ($\theta$ および $\beta$) によって表される標準パラメータ空間を定義し、次のように提案します。
2段階の学習手順。
最初の段階で、IRV は、既製の 2D キーポイント検出器の信頼できる出力によって監視され、カメラの姿勢とビュー依存の 3D 人間の姿勢を推定する方法を学習します。
第 2 段階では、IRV がフリーズされ、IEV はカメラのポーズをさらに洗練し、予測されたマルチビュー 2D キーポイントを結合してフィッティングすることによって達成される、ビュー間の補完と 3D ジオメトリ制約を暗黙的にエンコードすることによって、3D 人間のポーズを最適化します。
提案されたフレームワーク、モジュール、学習戦略は包括的な実験によって効果的であることが実証されており、CMANet は広範な定量的および定性的分析において最先端の手法よりも優れています。
要約(オリジナル)
Multi-view 3D human pose estimation is naturally superior to single view one, benefiting from more comprehensive information provided by images of multiple views. The information includes camera poses, 2D/3D human poses, and 3D geometry. However, the accurate annotation of these information is hard to obtain, making it challenging to predict accurate 3D human pose from multi-view images. To deal with this issue, we propose a fully self-supervised framework, named cascaded multi-view aggregating network (CMANet), to construct a canonical parameter space to holistically integrate and exploit multi-view information. In our framework, the multi-view information is grouped into two categories: 1) intra-view information , 2) inter-view information. Accordingly, CMANet consists of two components: intra-view module (IRV) and inter-view module (IEV). IRV is used for extracting initial camera pose and 3D human pose of each view; IEV is to fuse complementary pose information and cross-view 3D geometry for a final 3D human pose. To facilitate the aggregation of the intra- and inter-view, we define a canonical parameter space, depicted by per-view camera pose and human pose and shape parameters ($\theta$ and $\beta$) of SMPL model, and propose a two-stage learning procedure. At first stage, IRV learns to estimate camera pose and view-dependent 3D human pose supervised by confident output of an off-the-shelf 2D keypoint detector. At second stage, IRV is frozen and IEV further refines the camera pose and optimizes the 3D human pose by implicitly encoding the cross-view complement and 3D geometry constraint, achieved by jointly fitting predicted multi-view 2D keypoints. The proposed framework, modules, and learning strategy are demonstrated to be effective by comprehensive experiments and CMANet is superior to state-of-the-art methods in extensive quantitative and qualitative analysis.
arxiv情報
著者 | Xiaoben Li,Mancheng Meng,Ziyan Wu,Terrence Chen,Fan Yang,Dinggang Shen |
発行日 | 2024-03-29 14:55:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google