要約
近年、RGB画像からの単眼3D人物姿勢推定が注目されている。しかし、最近のモデルは、3Dポーズのグランドトゥルースデータやターゲットドメインの既知のポーズプリオを用いた教師ありのトレーニングに依存しています。3Dポーズデータは通常、モーションキャプチャデバイスで収集されるため、その適用性は著しく制限される。本論文では、グランドトゥルースの3Dポーズデータがない場合に、3Dポーズを推定するためのヒューリスティックな弱教師付き3D人間ポーズ(HW-HuP)ソリューションを紹介する。HW-HuPは、3D人間のポーズデータセットから部分的なポーズプリオを学習し、最適化と回帰サイクルで3D人間のポーズと形状を推定するために、ターゲットドメインから簡単にアクセスできる観測値を使用します。また、深度データを学習時の弱い監視に利用するが、推論には利用しない。HW-HuPは、3Dポーズデータがほとんど得られない2つの実用的な設定(ベッドでの人間のポーズ、野生での幼児のポーズ)において、最先端のモデルよりも有意に改善されることを示す。さらに、HW-HuPは、公共ベンチマークにおいて、3Dポーズデータで学習する場合でも、最先端モデルに匹敵する性能を維持することを明らかにする。
要約(オリジナル)
Monocular 3D human pose estimation from RGB images has attracted significant attention in recent years. However, recent models depend on supervised training with 3D pose ground truth data or known pose priors for their target domains. 3D pose data is typically collected with motion capture devices, severely limiting their applicability. In this paper, we present a heuristic weakly supervised 3D human pose (HW-HuP) solution to estimate 3D poses in when no ground truth 3D pose data is available. HW-HuP learns partial pose priors from 3D human pose datasets and uses easy-to-access observations from the target domain to estimate 3D human pose and shape in an optimization and regression cycle. We employ depth data for weak supervision during training, but not inference. We show that HW-HuP meaningfully improves upon state-of-the-art models in two practical settings where 3D pose data can hardly be obtained: human poses in bed, and infant poses in the wild. Furthermore, we show that HW-HuP retains comparable performance to cutting-edge models on public benchmarks, even when such models train on 3D pose data.
arxiv情報
著者 | Shuangjun Liu,Michael Wan,Sarah Ostadabbas |
発行日 | 2023-05-12 15:31:17+00:00 |
arxivサイト | arxiv_id(pdf) |