Text-based Animatable 3D Avatars with Morphable Model Alignment

要約

テキストからの高品質でアニメーション可能な3Dヘッドアバターの生成は、ゲーム、映画、具体化された仮想アシスタントなどのコンテンツ作成アプリケーションに大きな可能性を秘めています。
現在のテキストから3Dから3Dの生成方法は、通常、スコア蒸留サンプリングを使用して3D無共和的な結果を生成するパラメトリックヘッドモデルと2D拡散モデルを2D拡散モデルと組み合わせます。
しかし、彼らは現実的な詳細を統合するのに苦労し、外観と運転パラメトリックモデルの間の不整合に苦しむため、不自然なアニメーションの結果が生じます。
これらの制限は、3Dアバター蒸留中の2D拡散予測のあいまいさに起因することを発見しました。具体的には次のとおりです。i)アバターの外観とジオメトリは、テキスト入力によって不十分であり、ii)予測とパラメトリックヘッドモデルの間のセマンティックアライメントは、パラメトリックモデルのみから情報を導入できないため、パラメトリックヘッドモデルだけでは不十分です。
この作業では、テキストベースの現実的なアニメーション可能な3DGSアバター生成を備えた新しいフレームワークAnimportrait3Dを提案し、これらの課題に対処するための2つの重要な戦略を導入します。
まず、前処理されたテキストから3Dモデルからの以前の情報を利用して、堅牢な外観、ジオメトリ、および形成可能なモデルに関係をリギングする3Dアバターを初期化することにより、外観と幾何学のあいまいさに取り組みます。
第二に、正確なアライメントを確保するために、形成可能なモデルのセマンティックおよび通常のマップに条件付けられたコントロールネットを使用して、動的式の最初の3Dアバターを改良します。
その結果、私たちの方法は、合成品質、アラインメント、アニメーションの忠実度の点で既存のアプローチよりも優れています。
私たちの実験は、提案された方法が、テキストベースのアニメーション可能な3Dヘッドアバター生成の最新技術を進めることを示しています。

要約(オリジナル)

The generation of high-quality, animatable 3D head avatars from text has enormous potential in content creation applications such as games, movies, and embodied virtual assistants. Current text-to-3D generation methods typically combine parametric head models with 2D diffusion models using score distillation sampling to produce 3D-consistent results. However, they struggle to synthesize realistic details and suffer from misalignments between the appearance and the driving parametric model, resulting in unnatural animation results. We discovered that these limitations stem from ambiguities in the 2D diffusion predictions during 3D avatar distillation, specifically: i) the avatar’s appearance and geometry is underconstrained by the text input, and ii) the semantic alignment between the predictions and the parametric head model is insufficient because the diffusion model alone cannot incorporate information from the parametric model. In this work, we propose a novel framework, AnimPortrait3D, for text-based realistic animatable 3DGS avatar generation with morphable model alignment, and introduce two key strategies to address these challenges. First, we tackle appearance and geometry ambiguities by utilizing prior information from a pretrained text-to-3D model to initialize a 3D avatar with robust appearance, geometry, and rigging relationships to the morphable model. Second, we refine the initial 3D avatar for dynamic expressions using a ControlNet that is conditioned on semantic and normal maps of the morphable model to ensure accurate alignment. As a result, our method outperforms existing approaches in terms of synthesis quality, alignment, and animation fidelity. Our experiments show that the proposed method advances the state of the art in text-based, animatable 3D head avatar generation.

arxiv情報

著者 Yiqian Wu,Malte Prinzler,Xiaogang Jin,Siyu Tang
発行日 2025-04-22 12:29:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク