Emotional Speech-Driven Animation with Content-Emotion Disentanglement

要約

3D 顔アバターを広く採用するには、音声信号から直接、簡単に、リアルにアニメーション化する必要があります。
最近の最良の方法は、入力音声と同期した 3D アニメーションを生成しますが、顔の表情に対する感情の影響をほとんど無視しています。
リアルな顔のアニメーションには、自然な感情表現とともに口パクが必要です。
そのために、私たちは EMOTE (Expression Model Optimized for Talking with Emotion) を提案します。これは、感情の表現を明示的に制御しながら、音声の口パクを維持する 3D トーキングヘッド アバターを生成します。
これを達成するために、音声 (リップシンク) と感情の損失を分離して EMOTE を監視します。
これらの損失は、2 つの重要な観察結果に基づいています。(1) 発話による顔の変形は口の周囲に空間的に局在しており、時間的頻度が高いのに対し、(2) 顔の表情は顔全体を変形させ、より長い間隔で発生する可能性があります。
したがって、シーケンスレベルで感情を監視しながら、音声依存のコンテンツを保存するために、フレームごとの読唇損失を使用して EMOTE をトレーニングします。
さらに、唇の動きと音声の同期を維持しながら、同じオーディオ上のさまざまな感情を監視するために、内容と感情の交換メカニズムを採用しています。
望ましくないアーティファクトを生じさせることなく深い知覚損失を採用するために、時間的 VAE の形式でモーション プリアを考案します。
音声と位置合わせされた高品質の感情的な 3D 顔データセットが存在しないため、EMOTE は感情的なビデオ データセット (つまり MEAD) から抽出された 3D 擬似グラウンド トゥルースを使用してトレーニングされます。
広範な定性的および知覚的評価により、EMOTE は、同じデータに基づいてトレーニングされた最先端の方法よりも優れたリップシンクを備えた音声駆動の顔アニメーションを生成すると同時に、追加の高品質な感情制御を提供することが実証されています。

要約(オリジナル)

To be widely adopted, 3D facial avatars must be animated easily, realistically, and directly from speech signals. While the best recent methods generate 3D animations that are synchronized with the input audio, they largely ignore the impact of emotions on facial expressions. Realistic facial animation requires lip-sync together with the natural expression of emotion. To that end, we propose EMOTE (Expressive Model Optimized for Talking with Emotion), which generates 3D talking-head avatars that maintain lip-sync from speech while enabling explicit control over the expression of emotion. To achieve this, we supervise EMOTE with decoupled losses for speech (i.e., lip-sync) and emotion. These losses are based on two key observations: (1) deformations of the face due to speech are spatially localized around the mouth and have high temporal frequency, whereas (2) facial expressions may deform the whole face and occur over longer intervals. Thus, we train EMOTE with a per-frame lip-reading loss to preserve the speech-dependent content, while supervising emotion at the sequence level. Furthermore, we employ a content-emotion exchange mechanism in order to supervise different emotions on the same audio, while maintaining the lip motion synchronized with the speech. To employ deep perceptual losses without getting undesirable artifacts, we devise a motion prior in the form of a temporal VAE. Due to the absence of high-quality aligned emotional 3D face datasets with speech, EMOTE is trained with 3D pseudo-ground-truth extracted from an emotional video dataset (i.e., MEAD). Extensive qualitative and perceptual evaluations demonstrate that EMOTE produces speech-driven facial animations with better lip-sync than state-of-the-art methods trained on the same data, while offering additional, high-quality emotional control.

arxiv情報

著者 Radek Daněček,Kiran Chhatre,Shashank Tripathi,Yandong Wen,Michael J. Black,Timo Bolkart
発行日 2023-09-26 16:25:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク