EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face Generation

要約

きめ細かな感情制御を実装することは、感情生成タスクにとって非常に重要です。なぜなら、生成モデルの表現能力を向上させ、さまざまなニュアンスの感情状態を正確かつ包括的に捉えて表現できるようにすることで、生成コンテンツの感情品質とパーソナライゼーションを向上させることができるからです。肖像画と音声記録のみを用いて、感情表現を正確に描写するきめ細かいフェイシャルアニメーションを生成することは困難である。この課題を解決するために、我々は視覚属性ガイド付き音声デカップラーを提案する。これにより、音声内容のみに関連する内容ベクトルの取得が可能となり、その後の唇の動き係数予測の安定性が向上する。より正確な感情表現を実現するために、きめ細かい感情係数予測モジュールを導入する。さらに、きめ細かな感情行列を用いた感情強度制御法を提案する。これらにより、生成された映像における感情表現の効果的な制御と、感情強度のきめ細かな分類を実現する。その後、一連の3DMM係数生成ネットワークを設計して3D係数を予測し、レンダリングネットワークを利用して最終映像を生成する。実験結果は、提案手法EmoSpeakerが、表情の変化と唇の同期の点で、既存の感情的なしゃべり顔生成手法を凌駕することを示している。プロジェクトページ: https://peterfanfan.github.io/EmoSpeaker/

要約(オリジナル)

Implementing fine-grained emotion control is crucial for emotion generation tasks because it enhances the expressive capability of the generative model, allowing it to accurately and comprehensively capture and express various nuanced emotional states, thereby improving the emotional quality and personalization of generated content. Generating fine-grained facial animations that accurately portray emotional expressions using only a portrait and an audio recording presents a challenge. In order to address this challenge, we propose a visual attribute-guided audio decoupler. This enables the obtention of content vectors solely related to the audio content, enhancing the stability of subsequent lip movement coefficient predictions. To achieve more precise emotional expression, we introduce a fine-grained emotion coefficient prediction module. Additionally, we propose an emotion intensity control method using a fine-grained emotion matrix. Through these, effective control over emotional expression in the generated videos and finer classification of emotion intensity are accomplished. Subsequently, a series of 3DMM coefficient generation networks are designed to predict 3D coefficients, followed by the utilization of a rendering network to generate the final video. Our experimental results demonstrate that our proposed method, EmoSpeaker, outperforms existing emotional talking face generation methods in terms of expression variation and lip synchronization. Project page: https://peterfanfan.github.io/EmoSpeaker/

arxiv情報

著者 Guanwen Feng,Haoran Cheng,Yunan Li,Zhiyuan Ma,Chaoneng Li,Zhihao Qian,Qiguang Miao,Chi-Man Pun
発行日 2024-02-02 14:04:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク