MetaCap: Meta-learning Priors from Multi-View Imagery for Sparse-view Human Performance Capture and Rendering

要約

人間のパフォーマンスを忠実にキャプチャし、まばらな RGB 観察からフリービュー レンダリングを行うことは、ビジョンとグラフィックスにおける長年の課題です。
主な課題は、観察の欠如と、設定に固有の曖昧さです。
オクルージョンと深さの曖昧さ。
その結果、稠密なセットアップで高周波の外観とジオメトリの詳細をキャプチャする際に大きな期待を示している放射フィールドは、まばらなカメラビューで単純に監視すると、フィールドが単にまばらなビューの入力にオーバーフィットするため、パフォーマンスが低下します。
これに対処するために、人間の非常にまばらなビューまたは単一のビューを考慮した場合でも、効率的かつ高品質なジオメトリの回復と新しいビューの合成を行う手法である MetaCap を提案します。
私たちの重要なアイデアは、潜在的にまばらなマルチビュー ビデオのみから放射フィールドの重みをメタ学習することです。これは、人間を描いたまばらな画像で放射輝度フィールドの重みを微調整する際の事前学習として機能します。
この事前設定により、ネットワーク重みの初期化が適切に行われるため、スパースビューのキャプチャにおける曖昧さに効果的に対処できます。
人体の関節構造と運動によって引き起こされる表面変形のため、そのような事前学習を学習することは簡単ではありません。
したがって、ポーズ正規化空間でフィールドの重みをメタ学習することを提案します。これにより、空間特徴範囲が縮小され、特徴学習がより効果的になります。
その結果、フィールドパラメータを微調整して、目に見えないポーズ、新しい照明条件、および斬新でまばらな(単眼の)カメラビューを迅速に一般化することができます。
さまざまなシナリオの下で私たちの手法を評価するために、私たちは新しいデータセット WildDynaCap を収集しました。このデータセットには、密集したカメラ ドームと自然界の疎なカメラ リグの両方で撮影された被写体が含まれており、最近の最先端のカメラ リグと比較して優れた結果を示しています。
– パブリック データセットと WildDynaCap データセットの両方に対するアート メソッド。

要約(オリジナル)

Faithful human performance capture and free-view rendering from sparse RGB observations is a long-standing problem in Vision and Graphics. The main challenges are the lack of observations and the inherent ambiguities of the setting, e.g. occlusions and depth ambiguity. As a result, radiance fields, which have shown great promise in capturing high-frequency appearance and geometry details in dense setups, perform poorly when naively supervising them on sparse camera views, as the field simply overfits to the sparse-view inputs. To address this, we propose MetaCap, a method for efficient and high-quality geometry recovery and novel view synthesis given very sparse or even a single view of the human. Our key idea is to meta-learn the radiance field weights solely from potentially sparse multi-view videos, which can serve as a prior when fine-tuning them on sparse imagery depicting the human. This prior provides a good network weight initialization, thereby effectively addressing ambiguities in sparse-view capture. Due to the articulated structure of the human body and motion-induced surface deformations, learning such a prior is non-trivial. Therefore, we propose to meta-learn the field weights in a pose-canonicalized space, which reduces the spatial feature range and makes feature learning more effective. Consequently, one can fine-tune our field parameters to quickly generalize to unseen poses, novel illumination conditions as well as novel and sparse (even monocular) camera views. For evaluating our method under different scenarios, we collect a new dataset, WildDynaCap, which contains subjects captured in, both, a dense camera dome and in-the-wild sparse camera rigs, and demonstrate superior results compared to recent state-of-the-art methods on, both, public and WildDynaCap dataset.

arxiv情報

著者 Guoxing Sun,Rishabh Dabral,Pascal Fua,Christian Theobalt,Marc Habermann
発行日 2024-07-24 16:04:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク