Expressive Speech-driven Facial Animation with controllable emotions

要約

リアルなフェイシャルアニメーションを生成することが求められていますが、その実現は困難な課題です。既存の音声駆動型フェイシャルアニメーションのアプローチは、満足のいく口の動きや唇の同期を生成できるが、ドラマチックな感情表現や感情制御の柔軟性に弱点が見られる。本論文では、音声から表情豊かな顔アニメーションを生成するための、ディープラーニングを用いた新しいアプローチを紹介する。このアプローチは、感情の種類と強さを制御可能で、幅広い表情を見せることができる。感情のバリエーション(種類や強さなど)と対応する表情パラメータとの関係を学習する感情制御モジュールを提案する。これにより、感情制御可能な顔アニメーションが実現され、目標とする表情を連続的に任意に調整することが可能となる。定性的・定量的評価により、本手法により生成されたアニメーションは、正確な唇の動きを保持しつつ、顔の感情表現が豊かであり、他の最先端手法を凌駕していることが示されました。

要約(オリジナル)

It is in high demand to generate facial animation with high realism, but it remains a challenging task. Existing approaches of speech-driven facial animation can produce satisfactory mouth movement and lip synchronization, but show weakness in dramatic emotional expressions and flexibility in emotion control. This paper presents a novel deep learning-based approach for expressive facial animation generation from speech that can exhibit wide-spectrum facial expressions with controllable emotion type and intensity. We propose an emotion controller module to learn the relationship between the emotion variations (e.g., types and intensity) and the corresponding facial expression parameters. It enables emotion-controllable facial animation, where the target expression can be continuously adjusted as desired. The qualitative and quantitative evaluations show that the animation generated by our method is rich in facial emotional expressiveness while retaining accurate lip movement, outperforming other state-of-the-art methods.

arxiv情報

著者 Yutong Chen,Junhong Zhao,Wei-Qiang Zhang
発行日 2023-01-05 11:17:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク