要約
限られた入力からフォトリアリックな3Dヘッドアバターを作成することは、仮想現実、テレプレゼンス、デジタルエンターテイメントのアプリケーションにとってますます重要になっています。
ニューラルレンダリングや3Dガウスのスプラットティングなどの最近の進歩により、高品質のデジタル人間のアバターの作成とアニメーションが可能になりましたが、ほとんどの方法は複数の画像またはマルチビュー入力に依存しており、実際の使用の実用性を制限しています。
この論文では、一般化された以前のモデルと新しい階層的なUVスペースガウススプラッティングフレームワークを組み合わせた、シングルイメージベースの3Dドライブ可能なガウスヘッドアバター作成の新しいアプローチであるSegaを提案します。
SEGAは、大規模な2Dデータセットから派生したプライアーをマルチビュー、マルチエクスペリケーション、およびマルチIDデータから学習した3Dプリエをシームレスに組み合わせて、目に見えないアイデンティティに堅牢な一般化を達成しながら、新しい視点と表現を横切る3Dの一貫性を確保します。
さらに、火炎ベースの構造的事前化を活用し、ダイアルブランチアーキテクチャを使用して動的で静的な顔面コンポーネントを効果的に解き放つためにデュアルブランチアーキテクチャを使用する階層的なUVスペースガウススプラッティングフレームワークを提示します。
動的分岐は式駆動型の微細な詳細をエンコードしますが、静的分岐は式不変の領域に焦点を当て、効率的なパラメーターの推論と事前計算を可能にします。
この設計は、限られた3Dデータのユーティリティを最大化し、アニメーションとレンダリングのリアルタイムパフォーマンスを実現します。
さらに、セガは、生成されたアバターの忠実さとリアリズムをさらに強化するために、人固有の微調整を実行します。
実験は、私たちの方法が、一般化能力、アイデンティティの保存、および表現リアリズムの最先端のアプローチを上回り、実用的なアプリケーションのためにワンショットアバターの作成を促進することを示しています。
要約(オリジナル)
Creating photorealistic 3D head avatars from limited input has become increasingly important for applications in virtual reality, telepresence, and digital entertainment. While recent advances like neural rendering and 3D Gaussian splatting have enabled high-quality digital human avatar creation and animation, most methods rely on multiple images or multi-view inputs, limiting their practicality for real-world use. In this paper, we propose SEGA, a novel approach for Single-imagE-based 3D drivable Gaussian head Avatar creation that combines generalized prior models with a new hierarchical UV-space Gaussian Splatting framework. SEGA seamlessly combines priors derived from large-scale 2D datasets with 3D priors learned from multi-view, multi-expression, and multi-ID data, achieving robust generalization to unseen identities while ensuring 3D consistency across novel viewpoints and expressions. We further present a hierarchical UV-space Gaussian Splatting framework that leverages FLAME-based structural priors and employs a dual-branch architecture to disentangle dynamic and static facial components effectively. The dynamic branch encodes expression-driven fine details, while the static branch focuses on expression-invariant regions, enabling efficient parameter inference and precomputation. This design maximizes the utility of limited 3D data and achieves real-time performance for animation and rendering. Additionally, SEGA performs person-specific fine-tuning to further enhance the fidelity and realism of the generated avatars. Experiments show our method outperforms state-of-the-art approaches in generalization ability, identity preservation, and expression realism, advancing one-shot avatar creation for practical applications.
arxiv情報
著者 | Chen Guo,Zhuo Su,Jian Wang,Shuang Li,Xu Chang,Zhaohu Li,Yang Zhao,Guidong Wang,Ruqi Huang |
発行日 | 2025-04-23 12:27:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google