Neural Capture of Animatable 3D Human from Monocular Video

要約

目に見えないポーズやビューでレンダリングできるように、単眼ビデオ入力からアニメーション化可能な 3D 人間表現を構築する新しいパラダイムを提示します。
私たちの方法は、ジオメトリ プロキシとして機能するメッシュベースのパラメトリック 3D 人間モデルによって装備された動的なニューラル ラディアンス フィールド (NeRF) に基づいています。
以前の方法は通常、追加の入力としてマルチビュー ビデオまたは正確な 3D ジオメトリ情報に依存しています。
さらに、ほとんどの方法は、目に見えないポーズに一般化すると品質が低下します。
一般化の鍵は、動的な NeRF をクエリするための優れた入力埋め込みであることがわかりました。優れた入力埋め込みは、ポーズの変化の下で表面メッシュの変形によって導かれる、完全な体積空間での単射マッピングを定義する必要があります。
この観察に基づいて、入力クエリを、メッシュ頂点上の一連の測地線最近傍にまたがるローカル サーフェス領域との関係と共に埋め込むことを提案します。
位置情報と相対距離情報の両方を含めることで、埋め込みは距離保存変形マッピングを定義し、目に見えないポーズにうまく一般化します。
追加の入力への依存を減らすために、まず既製のツールを使用してフレームごとの 3D メッシュを初期化し、次にパイプラインを提案して NeRF を共同で最適化し、初期メッシュを改良します。
広範な実験により、私たちの方法が、目に見えないポーズやビューの下でもっともらしい人間のレンダリング結果を合成できることが示されています。

要約(オリジナル)

We present a novel paradigm of building an animatable 3D human representation from a monocular video input, such that it can be rendered in any unseen poses and views. Our method is based on a dynamic Neural Radiance Field (NeRF) rigged by a mesh-based parametric 3D human model serving as a geometry proxy. Previous methods usually rely on multi-view videos or accurate 3D geometry information as additional inputs; besides, most methods suffer from degraded quality when generalized to unseen poses. We identify that the key to generalization is a good input embedding for querying dynamic NeRF: A good input embedding should define an injective mapping in the full volumetric space, guided by surface mesh deformation under pose variation. Based on this observation, we propose to embed the input query with its relationship to local surface regions spanned by a set of geodesic nearest neighbors on mesh vertices. By including both position and relative distance information, our embedding defines a distance-preserved deformation mapping and generalizes well to unseen poses. To reduce the dependency on additional inputs, we first initialize per-frame 3D meshes using off-the-shelf tools and then propose a pipeline to jointly optimize NeRF and refine the initial mesh. Extensive experiments show our method can synthesize plausible human rendering results under unseen poses and views.

arxiv情報

著者 Gusi Te,Xiu Li,Xiao Li,Jinglu Wang,Wei Hu,Yan Lu
発行日 2022-08-18 09:20:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク