要約
しゃべるアバターの世代は、正確な音声同期において大きな進歩を遂げました。しかし、本物そっくりのトーキングヘッドビデオを作成するには、広範な感情と微妙な表情をキャプチャする必要があります。a)単一の基本的な感情表現をモデル化するフレームワークがないため、複合感情のような複雑な感情の生成が制限される。b)人間の感情表現が豊富な包括的なデータセットがないため、モデルの可能性が制限される。これらの課題に対処するために、我々は以下のイノベーションを提案する:1)6つの基本的な感情を切り離し、単数と複合の両方の感情状態の正確な合成を可能にするMixture of Emotion Experts(MoEE)モデル、2)6つの一般的な人間の感情表現と4種類の複合感情を含むように特別にキュレーションされたDH-FaceEmoVid-150データセット、これにより感情駆動モデルの学習の可能性を広げる。さらに、感情制御の柔軟性を向上させるために、音声、テキスト、ラベルなどの多様な制御信号を整列させることで、より多様な制御入力を確保し、音声のみで感情を制御できるようにする、マルチモーダル入力を活用するEmotion-to-Latentsモジュールを提案する。広範な定量的・定性的評価を通じて、DH-FaceEmoVid-150データセットと組み合わせたMoEEフレームワークが、複雑な感情表現やニュアンス豊かな顔の細部を生成することに優れており、この分野における新たなベンチマークとなることを実証します。これらのデータセットは一般に公開される予定です。
要約(オリジナル)
The generation of talking avatars has achieved significant advancements in precise audio synchronization. However, crafting lifelike talking head videos requires capturing a broad spectrum of emotions and subtle facial expressions. Current methods face fundamental challenges: a)the absence of frameworks for modeling single basic emotional expressions, which restricts the generation of complex emotions such as compound emotions; b)the lack of comprehensive datasets rich in human emotional expressions, which limits the potential of models. To address these challenges, we propose the following innovations: 1)the Mixture of Emotion Experts (MoEE) model, which decouples six fundamental emotions to enable the precise synthesis of both singular and compound emotional states; 2)the DH-FaceEmoVid-150 dataset, specifically curated to include six prevalent human emotional expressions as well as four types of compound emotions, thereby expanding the training potential of emotion-driven models. Furthermore, to enhance the flexibility of emotion control, we propose an emotion-to-latents module that leverages multimodal inputs, aligning diverse control signals-such as audio, text, and labels-to ensure more varied control inputs as well as the ability to control emotions using audio alone. Through extensive quantitative and qualitative evaluations, we demonstrate that the MoEE framework, in conjunction with the DH-FaceEmoVid-150 dataset, excels in generating complex emotional expressions and nuanced facial details, setting a new benchmark in the field. These datasets will be publicly released.
arxiv情報
著者 | Huaize Liu,Wenzhang Sun,Donglin Di,Shibo Sun,Jiahui Yang,Changqing Zou,Hujun Bao |
発行日 | 2025-01-03 13:43:21+00:00 |
arxivサイト | arxiv_id(pdf) |