GGHead: Fast and Generalizable 3D Gaussian Heads

要約

大規模な 2D 画像コレクションから 3D 頭部事前分布を学習することは、高品質の 3D 対応人間モデリングへの重要なステップです。
中核的な要件は、大規模なデータセットや大きな画像解像度に適切に拡張できる効率的なアーキテクチャです。
残念ながら、既存の 3D GAN は、トレーニングとレンダリングの速度が比較的遅いため、高解像度でサンプルを生成するための拡張に苦労しており、通常はグローバルな 3D 一貫性を犠牲にして 2D 超解像度ネットワークに依存する必要があります。
これらの課題に対処するために、私たちは 3D GAN フレームワーク内で最近の 3D ガウス スプラッティング表現を採用する生成ガウス ヘッド (GGHead) を提案します。
3D 表現を生成するには、強力な 2D CNN ジェネレーターを使用して、テンプレート ヘッド メッシュの UV 空間内のガウス属性を予測します。
このように、GGHead はテンプレートの UV レイアウトの規則性を利用し、構造化されていない 3D ガウス セットを予測するという困難なタスクを大幅に容易にします。
レンダリングされた UV 座標における新しい合計変動損失により、生成された 3D 表現の幾何学的忠実度がさらに向上しました。
直観的には、この正則化により、隣接するレンダリングされたピクセルがテンプレートの UV 空間内の隣接するガウス分布から派生することが促進されます。
まとめると、私たちのパイプラインは、単一ビューの 2D 画像観察のみからトレーニングされた 3D ヘッドを効率的に生成できます。
私たちが提案するフレームワークは、FFHQ 上の既存の 3D ヘッド GAN の品質に匹敵すると同時に、大幅に高速で完全に 3D の一貫性を備えています。
その結果、$1024^2$ の解像度での高品質の 3D 一貫性のあるヘッドのリアルタイム生成とレンダリングを初めて実証しました。

要約(オリジナル)

Learning 3D head priors from large 2D image collections is an important step towards high-quality 3D-aware human modeling. A core requirement is an efficient architecture that scales well to large-scale datasets and large image resolutions. Unfortunately, existing 3D GANs struggle to scale to generate samples at high resolutions due to their relatively slow train and render speeds, and typically have to rely on 2D superresolution networks at the expense of global 3D consistency. To address these challenges, we propose Generative Gaussian Heads (GGHead), which adopts the recent 3D Gaussian Splatting representation within a 3D GAN framework. To generate a 3D representation, we employ a powerful 2D CNN generator to predict Gaussian attributes in the UV space of a template head mesh. This way, GGHead exploits the regularity of the template’s UV layout, substantially facilitating the challenging task of predicting an unstructured set of 3D Gaussians. We further improve the geometric fidelity of the generated 3D representations with a novel total variation loss on rendered UV coordinates. Intuitively, this regularization encourages that neighboring rendered pixels should stem from neighboring Gaussians in the template’s UV space. Taken together, our pipeline can efficiently generate 3D heads trained only from single-view 2D image observations. Our proposed framework matches the quality of existing 3D head GANs on FFHQ while being both substantially faster and fully 3D consistent. As a result, we demonstrate real-time generation and rendering of high-quality 3D-consistent heads at $1024^2$ resolution for the first time.

arxiv情報

著者 Tobias Kirschstein,Simon Giebenhain,Jiapeng Tang,Markos Georgopoulos,Matthias Nießner
発行日 2024-06-13 17:54:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク