要約
話し言葉から派生したテキスト(EMO3D)から感情的に動的に3Dフェイシャルアバターを生産することは、3Dアバター世代の極めて重要な研究トピックでした。
一般的な3Dアバター生成では進歩がなされていますが、主に話された言葉から豊かな感情を特定してレンダリングする複雑さのために、感情的な3Dアバターを生成することの調査は依然として不足しています。
このペーパーは、EMO3Dの世代を再検討し、人間のプロセスからインスピレーションを引き出し、EMO3Dを2つのカスケードステップに分割します:テキストから3Dの式マッピング(T3DEM)と3Dアバターレンダリング(3DAR)。
T3DEMは、EMO3D生成の品質を決定する上で最も重要なステップであり、3つの重要な課題を包含します。表現の多様性、感情コンセントの一貫性、および表現の流動性です。
これらの課題に対処するために、EMO3D世代の研究を進めるための新しいベンチマークを紹介します。
まず、T3DEMの大規模で高品質のデータセットであるEmoavaを提示します。これは、EMO3D世代の前述の3つの課題を特徴付ける15,000のテキストから3Dの式マッピングを含むものです。
さらに、これらの特定された課題に対してモデルを効果的に評価するために、さまざまなメトリックを開発します。
次に、T3DEMステップでの人間の表現の一貫性、多様性、流動性を効果的にモデル化するために、潜在的な時間的注意と発現とワイズの注意メカニズムで強化された発現コード生成のために自己回帰条件付き変分変異オートエンコーダーを使用する連続テキストから発現の発生器を提案します。
最後に、高品質の微妙な表現をレンダリングするための3DARステップをさらに強化するために、グローバルに基づいたガウスアバター(GIGA)モデルを紹介します。
GIGAは、グローバルな情報メカニズムを3Dガウス表現に組み込み、感情状態間の微妙な微小発現とシームレスな遷移のキャプチャを可能にします。
要約(オリジナル)
Producing emotionally dynamic 3D facial avatars with text derived from spoken words (Emo3D) has been a pivotal research topic in 3D avatar generation. While progress has been made in general-purpose 3D avatar generation, the exploration of generating emotional 3D avatars remains scarce, primarily due to the complexities of identifying and rendering rich emotions from spoken words. This paper reexamines Emo3D generation and draws inspiration from human processes, breaking down Emo3D into two cascading steps: Text-to-3D Expression Mapping (T3DEM) and 3D Avatar Rendering (3DAR). T3DEM is the most crucial step in determining the quality of Emo3D generation and encompasses three key challenges: Expression Diversity, Emotion-Content Consistency, and Expression Fluidity. To address these challenges, we introduce a novel benchmark to advance research in Emo3D generation. First, we present EmoAva, a large-scale, high-quality dataset for T3DEM, comprising 15,000 text-to-3D expression mappings that characterize the aforementioned three challenges in Emo3D generation. Furthermore, we develop various metrics to effectively evaluate models against these identified challenges. Next, to effectively model the consistency, diversity, and fluidity of human expressions in the T3DEM step, we propose the Continuous Text-to-Expression Generator, which employs an autoregressive Conditional Variational Autoencoder for expression code generation, enhanced with Latent Temporal Attention and Expression-wise Attention mechanisms. Finally, to further enhance the 3DAR step on rendering higher-quality subtle expressions, we present the Globally-informed Gaussian Avatar (GiGA) model. GiGA incorporates a global information mechanism into 3D Gaussian representations, enabling the capture of subtle micro-expressions and seamless transitions between emotional states.
arxiv情報
著者 | Haidong Xu,Meishan Zhang,Hao Ju,Zhedong Zheng,Erik Cambria,Min Zhang,Hao Fei |
発行日 | 2025-05-20 15:17:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google