要約
単眼 RGB ビデオからの 3D トラッキングの既存の方法は、主に関節のある剛体オブジェクトを考慮しています。
この設定での密な非剛体オブジェクトの変形のモデリングは、これまでほとんど対処されていませんでしたが、そのような効果により、AR/VR やアバター通信などの下流アプリケーションのリアリズムが向上する可能性があります。
これは、単眼ビュー設定の深刻な姿勢の悪さと、それに伴う課題が原因です。
3D テンプレートまたはパラメトリック 3D モデルを使用して、複数の非剛体オブジェクトを個別に単純に追跡することは可能ですが、そのようなアプローチでは、深さの曖昧さ、不自然なオブジェクト内衝突、欠落または信じられない変形など、結果として得られる 3D 推定に複数のアーティファクトが発生する可能性があります。
したがって、この論文では、上で説明した基本的な課題に対処し、単一の単眼 RGB ビデオから 3D で人間の顔と対話する人間の手の追跡を可能にする最初の方法を紹介します。
アクティブなインタラクション中に非剛体顔の変形を引き起こす多関節オブジェクトとして手をモデル化します。
私たちの方法は、マーカーレスのマルチビュー カメラ システムで取得された現実的な顔の変形を含む、新しい手の顔のモーションとインタラクション キャプチャ データセットに依存しています。
その作成における極めて重要なステップとして、位置ベースのダイナミクスと頭部組織の不均一な剛性推定のアプローチを使用して、再構成された生の 3D 形状を処理します。これにより、表面の変形、手と顔の接触領域、および
頭と手の位置。
私たちのニューラルアプローチの中核は、事前に手の顔の深さを提供する変分オートエンコーダーと、接触と変形を推定することによって 3D トラッキングをガイドするモジュールです。
最終的な 3D 手と顔の再構成は現実的であり、定量的および定性的に、この設定に適用できるいくつかのベースラインと比較してより妥当性があります。
https://vcai.mpi-inf.mpg.de/projects/Decaf
要約(オリジナル)
Existing methods for 3D tracking from monocular RGB videos predominantly consider articulated and rigid objects. Modelling dense non-rigid object deformations in this setting remained largely unaddressed so far, although such effects can improve the realism of the downstream applications such as AR/VR and avatar communications. This is due to the severe ill-posedness of the monocular view setting and the associated challenges. While it is possible to naively track multiple non-rigid objects independently using 3D templates or parametric 3D models, such an approach would suffer from multiple artefacts in the resulting 3D estimates such as depth ambiguity, unnatural intra-object collisions and missing or implausible deformations. Hence, this paper introduces the first method that addresses the fundamental challenges depicted above and that allows tracking human hands interacting with human faces in 3D from single monocular RGB videos. We model hands as articulated objects inducing non-rigid face deformations during an active interaction. Our method relies on a new hand-face motion and interaction capture dataset with realistic face deformations acquired with a markerless multi-view camera system. As a pivotal step in its creation, we process the reconstructed raw 3D shapes with position-based dynamics and an approach for non-uniform stiffness estimation of the head tissues, which results in plausible annotations of the surface deformations, hand-face contact regions and head-hand positions. At the core of our neural approach are a variational auto-encoder supplying the hand-face depth prior and modules that guide the 3D tracking by estimating the contacts and the deformations. Our final 3D hand and face reconstructions are realistic and more plausible compared to several baselines applicable in our setting, both quantitatively and qualitatively. https://vcai.mpi-inf.mpg.de/projects/Decaf
arxiv情報
| 著者 | Soshi Shimada,Vladislav Golyanik,Patrick Pérez,Christian Theobalt | 
| 発行日 | 2023-09-28 17:59:51+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
