要約
話し言葉に由来するテキストを用いた感情的でダイナミックな3D顔アバター(Emo3D)の生成は、3Dアバター生成における極めて重要な研究テーマである。汎用の3Dアバター生成では進歩が見られるが、感情的な3Dアバターの生成は、主に話し言葉から豊かな感情を識別し、レンダリングすることが複雑なため、ほとんど行われていない。この論文では、Emo3Dの生成を再検討し、人間のプロセスからインスピレーションを得て、Emo3Dを2つのカスケードステップに分解します:テキストから3D表現マッピング(T3DEM)と3Dアバターレンダリング(3DAR)です。T3DEMは、Emo3D生成の品質を決定する最も重要なステップであり、3つの重要な課題を包含しています:表情の多様性、感情とコンテンツの一貫性、表情の流動性です。これらの課題に対処するために、Emo3D生成の研究を進めるための新しいベンチマークを紹介します。まず、T3DEMのための大規模で高品質なデータセットであるEmoAvaを紹介する。EmoAvaは、前述のEmo3D生成における3つの課題を特徴付ける15,000のテキストから3Dへの表情マッピングから構成される。さらに、これらの課題に対してモデルを効果的に評価するための様々なメトリクスを開発する。次に、T3DEMステップにおける人間の表情の一貫性、多様性、流動性を効果的にモデル化するために、表現コード生成のための自己回帰型条件付き変分オートエンコーダを採用し、潜在的時間的注意と表現単位の注意のメカニズムで強化された連続テキスト表現ジェネレータを提案する。最後に、より質の高い微妙な表情をレンダリングする3DARステップをさらに強化するために、Globally-informed Gaussian Avatar(GiGA)モデルを紹介する。GiGAは、3Dガウス表現にグローバル情報メカニズムを組み込み、微妙な微表情のキャプチャと感情状態間のシームレスな遷移を可能にする。
要約(オリジナル)
Producing emotionally dynamic 3D facial avatars with text derived from spoken words (Emo3D) has been a pivotal research topic in 3D avatar generation. While progress has been made in general-purpose 3D avatar generation, the exploration of generating emotional 3D avatars remains scarce, primarily due to the complexities of identifying and rendering rich emotions from spoken words. This paper reexamines Emo3D generation and draws inspiration from human processes, breaking down Emo3D into two cascading steps: Text-to-3D Expression Mapping (T3DEM) and 3D Avatar Rendering (3DAR). T3DEM is the most crucial step in determining the quality of Emo3D generation and encompasses three key challenges: Expression Diversity, Emotion-Content Consistency, and Expression Fluidity. To address these challenges, we introduce a novel benchmark to advance research in Emo3D generation. First, we present EmoAva, a large-scale, high-quality dataset for T3DEM, comprising 15,000 text-to-3D expression mappings that characterize the aforementioned three challenges in Emo3D generation. Furthermore, we develop various metrics to effectively evaluate models against these identified challenges. Next, to effectively model the consistency, diversity, and fluidity of human expressions in the T3DEM step, we propose the Continuous Text-to-Expression Generator, which employs an autoregressive Conditional Variational Autoencoder for expression code generation, enhanced with Latent Temporal Attention and Expression-wise Attention mechanisms. Finally, to further enhance the 3DAR step on rendering higher-quality subtle expressions, we present the Globally-informed Gaussian Avatar (GiGA) model. GiGA incorporates a global information mechanism into 3D Gaussian representations, enabling the capture of subtle micro-expressions and seamless transitions between emotional states.
arxiv情報
著者 | Haidong Xu,Meishan Zhang,Hao Ju,Zhedong Zheng,Hongyuan Zhu,Erik Cambria,Min Zhang,Hao Fei |
発行日 | 2024-12-03 15:39:05+00:00 |
arxivサイト | arxiv_id(pdf) |