要約
被写体と複雑で変形しやすい環境との相互作用を考慮した単眼 RGB 画像からの 3D ヒューマン モーション キャプチャは、非常に挑戦的で、設定が適切でなく、未調査の問題です。
既存の方法では、人間がシーンの表面と対話するときに発生する可能性のある表面の変形をモデル化していません。
対照的に、この論文では、MoCapDeform を提案します。つまり、3D シーンの非剛体変形を明示的にモデル化して、3D 人間の姿勢推定と変形可能な環境再構築を改善する最初の単眼 3D 人間モーション キャプチャの新しいフレームワークです。
MoCapDeform は、カメラ空間に配置された単眼 RGB ビデオと 3D シーン メッシュを受け入れます。
最初に、新しいレイキャスティング ベースの戦略を使用して、密集した接触ラベルと共に、入力単眼ビデオ内の対象をローカライズします。
次に、人間と環境の相互作用の制約を活用して、グローバルな 3D 人間のポーズと非剛体表面の変形を共同で最適化します。
MoCapDeform は、いくつかのデータセットで競合する方法よりも優れた精度を達成します。これには、背景シーンが変形する新しく記録されたものも含まれます。
要約(オリジナル)
3D human motion capture from monocular RGB images respecting interactions of a subject with complex and possibly deformable environments is a very challenging, ill-posed and under-explored problem. Existing methods address it only weakly and do not model possible surface deformations often occurring when humans interact with scene surfaces. In contrast, this paper proposes MoCapDeform, i.e., a new framework for monocular 3D human motion capture that is the first to explicitly model non-rigid deformations of a 3D scene for improved 3D human pose estimation and deformable environment reconstruction. MoCapDeform accepts a monocular RGB video and a 3D scene mesh aligned in the camera space. It first localises a subject in the input monocular video along with dense contact labels using a new raycasting based strategy. Next, our human-environment interaction constraints are leveraged to jointly optimise global 3D human poses and non-rigid surface deformations. MoCapDeform achieves superior accuracy than competing methods on several datasets, including our newly recorded one with deforming background scenes.
arxiv情報
著者 | Zhi Li,Soshi Shimada,Bernt Schiele,Christian Theobalt,Vladislav Golyanik |
発行日 | 2022-08-17 17:59:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google