要約
人間の頭の高忠実度のデジタル バージョンの作成は、仮想コンポーネントを私たちの日常生活にさらに統合するプロセスにおける重要な足掛かりとなります。
このようなアバターの構築は、フォトリアリズムとリアルタイム レンダリング パフォーマンスに対する高い需要があるため、研究が困難な問題です。
この研究では、マルチビュー ビデオ録画から高忠実度の制御可能なアバターを作成するデータ駆動型アプローチであるニューラル パラメトリック ガウス アバター (NPGA) を提案します。
私たちは、高効率なレンダリングを実現し、点群のトポロジー的柔軟性を継承するために、3D ガウス スプラッティングを中心にメソッドを構築します。
以前の研究とは対照的に、メッシュベースの 3DMM ではなく、ニューラル パラメトリック頭部モデル (NPHM) の豊かな表現空間でアバターのダイナミクスを調整します。
この目的を達成するために、基礎となる NPHM の後方変形フィールドを、ラスタライズベースのレンダリングと互換性のある前方変形に抽出します。
残りのすべての細かいスケールの表現に依存する詳細は、マルチビュー ビデオから学習されます。
アバターの表現能力を高めるために、各プリミティブの動的動作を条件付けるガウスごとの潜在特徴を提案します。
この増加した動的表現力を正規化するために、潜在的な特徴と予測されるダイナミクスに関するラプラシアン項を提案します。
公開されている NeRSemble データセットでメソッドを評価し、自己再現タスクにおいて NPGA が以前の最先端のアバターよりも 2.6 PSNR 大幅に優れていることを実証しました。
さらに、現実世界の単眼ビデオからの正確なアニメーション機能を実証します。
要約(オリジナル)
The creation of high-fidelity, digital versions of human heads is an important stepping stone in the process of further integrating virtual components into our everyday lives. Constructing such avatars is a challenging research problem, due to a high demand for photo-realism and real-time rendering performance. In this work, we propose Neural Parametric Gaussian Avatars (NPGA), a data-driven approach to create high-fidelity, controllable avatars from multi-view video recordings. We build our method around 3D Gaussian splatting for its highly efficient rendering and to inherit the topological flexibility of point clouds. In contrast to previous work, we condition our avatars’ dynamics on the rich expression space of neural parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we distill the backward deformation field of our underlying NPHM into forward deformations which are compatible with rasterization-based rendering. All remaining fine-scale, expression-dependent details are learned from the multi-view videos. For increased representational capacity of our avatars, we propose per-Gaussian latent features that condition each primitives dynamic behavior. To regularize this increased dynamic expressivity, we propose Laplacian terms on the latent features and predicted dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating that NPGA significantly outperforms the previous state-of-the-art avatars on the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate animation capabilities from real-world monocular videos.
arxiv情報
著者 | Simon Giebenhain,Tobias Kirschstein,Martin Rünz,Lourdes Agapito,Matthias Nießner |
発行日 | 2024-09-13 17:41:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google