Gaussian Eigen Models for Human Heads

要約

現在のパーソナライズされたニューラル ヘッド アバターはトレードオフに直面しています。軽量モデルはディテールやリアリズムに欠ける一方、高品質でアニメーション化可能なアバターは大量の計算リソースを必要とするため、コモディティ デバイスには適していません。
このギャップに対処するために、高品質、軽量、簡単に制御可能なヘッド アバターを提供するガウス固有モデル (GEM) を導入します。
GEM は、レンダリングのためのガウス スプラッティングと組み合わせた外観を表現するために 3D ガウス プリミティブを利用します。
メッシュベースの 3D モーファブル顔モデル (3DMM) の成功に基づいて、GEM を特定の被験者の頭部の外観を表現するための線形固有ベースのアンサンブルとして定義します。
特に、3D ガウスの位置、スケール、回転、不透明度を表す線形ベースを構築します。
これにより、それぞれの係数を含む低次元パラメータ ベクトルのみを必要とし、基底ベクトルの線形結合によって特定の頭部形状のガウス プリミティブを効率的に生成できます。
私たちは、しわのような表情依存の外観変化を生成できる高品質の計算集約型 CNN ベースのガウス アバター モデルを抽出することによって、これらの線形ベース (GEM) を構築することを提案します。
これらの高品質モデルは、被写体のマルチビュー ビデオでトレーニングされ、一連の主成分分析を使用して抽出されます。
特定の人間のアニメーション化可能な外観空間を表す基底を取得したら、単一の RGB 画像を入力として受け取り、表示された顔の表情に対応する低次元パラメーター ベクトルを予測するリグレッサーを学習します。
一連の実験では、GEM の自己再現およびクロスパーソン再現の結果を最先端の 3D アバター手法と比較し、GEM のより高い視覚品質と新しい表現へのより良い一般化を実証しました。

要約(オリジナル)

Current personalized neural head avatars face a trade-off: lightweight models lack detail and realism, while high-quality, animatable avatars require significant computational resources, making them unsuitable for commodity devices. To address this gap, we introduce Gaussian Eigen Models (GEM), which provide high-quality, lightweight, and easily controllable head avatars. GEM utilizes 3D Gaussian primitives for representing the appearance combined with Gaussian splatting for rendering. Building on the success of mesh-based 3D morphable face models (3DMM), we define GEM as an ensemble of linear eigenbases for representing the head appearance of a specific subject. In particular, we construct linear bases to represent the position, scale, rotation, and opacity of the 3D Gaussians. This allows us to efficiently generate Gaussian primitives of a specific head shape by a linear combination of the basis vectors, only requiring a low-dimensional parameter vector that contains the respective coefficients. We propose to construct these linear bases (GEM) by distilling high-quality compute-intense CNN-based Gaussian avatar models that can generate expression-dependent appearance changes like wrinkles. These high-quality models are trained on multi-view videos of a subject and are distilled using a series of principal component analyses. Once we have obtained the bases that represent the animatable appearance space of a specific human, we learn a regressor that takes a single RGB image as input and predicts the low-dimensional parameter vector that corresponds to the shown facial expression. In a series of experiments, we compare GEM’s self-reenactment and cross-person reenactment results to state-of-the-art 3D avatar methods, demonstrating GEM’s higher visual quality and better generalization to new expressions.

arxiv情報

著者 Wojciech Zielonka,Timo Bolkart,Thabo Beeler,Justus Thies
発行日 2025-01-14 18:20:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク