要約
高い臨場感を持つフェイシャルアニメーションを生成することが求められていますが、それは依然として困難な課題です。既存の音声駆動型フェイシャルアニメーションのアプローチは、満足のいく口の動きと唇の同期を生成することができるが、劇的な感情表現や感情制御の柔軟性に弱点を示す。本論文では、音声から表情豊かな顔アニメーションを生成するための、ディープラーニングを用いた新しいアプローチを提案する。感情のバリエーション(種類や強さなど)と対応する表情パラメータとの関係を学習する感情コントローラモジュールを提案する。これにより、感情制御可能な顔アニメーションを実現し、目標とする表情を連続的に任意に調整することができる。定性的および定量的評価により、本手法により生成されたアニメーションは、正確な唇の動きを保持しつつ、顔の感情表現が豊かであり、他の最先端手法を凌駕することが示された。
要約(オリジナル)
It is in high demand to generate facial animation with high realism, but it remains a challenging task. Existing approaches of speech-driven facial animation can produce satisfactory mouth movement and lip synchronization, but show weakness in dramatic emotional expressions and flexibility in emotion control. This paper presents a novel deep learning-based approach for expressive facial animation generation from speech that can exhibit wide-spectrum facial expressions with controllable emotion type and intensity. We propose an emotion controller module to learn the relationship between the emotion variations (e.g., types and intensity) and the corresponding facial expression parameters. It enables emotion-controllable facial animation, where the target expression can be continuously adjusted as desired. The qualitative and quantitative evaluations show that the animation generated by our method is rich in facial emotional expressiveness while retaining accurate lip movement, outperforming other state-of-the-art methods.
arxiv情報
著者 | Yutong Chen,Junhong Zhao,Wei-Qiang Zhang |
発行日 | 2024-01-04 12:20:15+00:00 |
arxivサイト | arxiv_id(pdf) |