GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations

要約

人間の頭のアバターのリアルタイム レンダリングは、いくつか例を挙げると、拡張現実、ビデオ ゲーム、映画など、多くのコンピュータ グラフィックス アプリケーションの基礎です。
最近のアプローチでは、慎重に調整されたマルチビュー設定で計算効率の高いジオメトリ プリミティブを使用して、この課題に対処しています。
フォトリアリスティックな頭部のレンダリングは生成されますが、口の内部や大きく変化する頭のポーズなどの複雑な動きの変化を表現できないことがよくあります。
我々は、多視点画像からリアルタイムで非常に動的で変形可能な人頭アバターを生成する新しい方法を提案します。
私たちの手法の中核となるのは、顔の表情や頭の動きの複雑なダイナミクスを捉えることを可能にする頭部モデルの階層表現です。
まず、生の入力フレームから抽出された豊富な顔の特徴を使用して、テンプレート メッシュの粗い顔のジオメトリを変形する方法を学習します。
次に、変形した表面上で 3D ガウスを初期化し、その位置を細かいステップで調整します。
この粗いものから細かいものまでの顔のアバター モデルを、エンドツーエンドのフレームワークで学習可能なパラメーターとして頭のポーズとともにトレーニングします。
これにより、ビデオ入力を介して制御可能な顔のアニメーションだけでなく、大きな動きの変化の下での舌の変形やきめの細かい歯の構造など、難しい顔の表情の高忠実度の新しいビュー合成が可能になります。
さらに、学習された頭のアバターが推論時に新しい顔の表情や頭のポーズに一般化することを促進します。
複数のアイデンティティにわたる困難な表情シーケンスにわたる、さまざまなデータセットでの関連手法との比較により、私たちの手法のパフォーマンスを実証します。
また、アイデンティティを超えた顔のパフォーマンス転送アプリケーションをデモンストレーションすることで、私たちのアプローチの潜在的な応用例も示します。

要約(オリジナル)

Real-time rendering of human head avatars is a cornerstone of many computer graphics applications, such as augmented reality, video games, and films, to name a few. Recent approaches address this challenge with computationally efficient geometry primitives in a carefully calibrated multi-view setup. Albeit producing photorealistic head renderings, it often fails to represent complex motion changes such as the mouth interior and strongly varying head poses. We propose a new method to generate highly dynamic and deformable human head avatars from multi-view imagery in real-time. At the core of our method is a hierarchical representation of head models that allows to capture the complex dynamics of facial expressions and head movements. First, with rich facial features extracted from raw input frames, we learn to deform the coarse facial geometry of the template mesh. We then initialize 3D Gaussians on the deformed surface and refine their positions in a fine step. We train this coarse-to-fine facial avatar model along with the head pose as a learnable parameter in an end-to-end framework. This enables not only controllable facial animation via video inputs, but also high-fidelity novel view synthesis of challenging facial expressions, such as tongue deformations and fine-grained teeth structure under large motion changes. Moreover, it encourages the learned head avatar to generalize towards new facial expressions and head poses at inference time. We demonstrate the performance of our method with comparisons against the related methods on different datasets, spanning challenging facial expression sequences across multiple identities. We also show the potential application of our approach by demonstrating a cross-identity facial performance transfer application.

arxiv情報

著者 Kartik Teotia,Hyeongwoo Kim,Pablo Garrido,Marc Habermann,Mohamed Elgharib,Christian Theobalt
発行日 2024-09-18 13:05:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク