SelfPose3d: Self-Supervised Multi-Person Multi-View 3d Pose Estimation

要約

複数のカメラビューから複数の人物の 3D ポーズを推定するための、新しい自己教師ありアプローチ SelfPose3d を紹介します。
現在の最先端の完全に監視された手法とは異なり、私たちのアプローチは 2D または 3D のグラウンドトゥルース ポーズを必要とせず、校正されたカメラ セットアップからのマルチビュー入力画像と、オフカメラから生成された 2D 擬似ポーズのみを使用します。
棚の 2D 人間の姿勢推定器。
我々は 2 つの自己教師あり学習目標、すなわち 3D 空間における自己教師ありの人物の位置特定と自己教師ありの 3D 姿勢推定を提案します。
3D 人物のルート位置として機能する合成的に生成された 3D ポイントと、すべてのビューで投影されたルート ヒートマップ上でモデルをトレーニングすることにより、自己監視型 3D 人物位置特定を実現します。
次に、ボトルネック表現を使用してローカライズされたすべての人物の 3D ポーズをモデル化し、2D ジョイントを取得するすべてのビューにマッピングし、2D ガウス ヒートマップを使用してエンドツーエンドの微分可能な方法でレンダリングします。
その後、擬似 2D ポーズからの対応する 2D ジョイントとヒートマップを学習に使用します。
擬似ラベルの本質的な不正確さを軽減するために、自己監視をガイドする適応型監視アテンション メカニズムを提案します。
Panoptic、Shelf、Campus を含む 3 つの公開ベンチマーク データセットに対する私たちの実験と分析は、完全に教師ありの手法に匹敵する、私たちのアプローチの有効性を示しています。
コードは \url{https://github.com/CAMMA-public/SelfPose3D} で入手できます。

要約(オリジナル)

We present a new self-supervised approach, SelfPose3d, for estimating 3d poses of multiple persons from multiple camera views. Unlike current state-of-the-art fully-supervised methods, our approach does not require any 2d or 3d ground-truth poses and uses only the multi-view input images from a calibrated camera setup and 2d pseudo poses generated from an off-the-shelf 2d human pose estimator. We propose two self-supervised learning objectives: self-supervised person localization in 3d space and self-supervised 3d pose estimation. We achieve self-supervised 3d person localization by training the model on synthetically generated 3d points, serving as 3d person root positions, and on the projected root-heatmaps in all the views. We then model the 3d poses of all the localized persons with a bottleneck representation, map them onto all views obtaining 2d joints, and render them using 2d Gaussian heatmaps in an end-to-end differentiable manner. Afterwards, we use the corresponding 2d joints and heatmaps from the pseudo 2d poses for learning. To alleviate the intrinsic inaccuracy of the pseudo labels, we propose an adaptive supervision attention mechanism to guide the self-supervision. Our experiments and analysis on three public benchmark datasets, including Panoptic, Shelf, and Campus, show the effectiveness of our approach, which is comparable to fully-supervised methods. Code is available at \url{https://github.com/CAMMA-public/SelfPose3D}

arxiv情報

著者 Vinkle Srivastav,Keqi Chen,Nicolas Padoy
発行日 2024-04-02 15:34:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク