要約
共同表現と音声ガイド付きの話し顔生成のための新しい方法を紹介します。
最近のアプローチでは、話者のアイデンティティを維持するのが難しいか、忠実な表情を作り出すことができません。
これらの課題に対処するために、私たちは NeRF ベースのネットワークを提案します。
グラウンドトゥルースを使用せずに単眼ビデオでネットワークをトレーニングするため、オーディオと表現の解きほぐされた表現を学習することが不可欠です。
まず、複数の被験者からの発話を与えて、自己教師ありの方法で音声の特徴を学習します。
対照的な学習手法を組み込むことで、学習した音声の特徴が唇の動きと一致し、顔の他の部分の筋肉の動きから切り離されることが保証されます。
次に、表情の特徴を学習するトランスベースのアーキテクチャを考案し、広範囲の表情を捕捉し、音声特有の口の動きから表情を解きほぐします。
定量的および定性的評価を通じて、私たちの方法が高忠実度の話している顔のビデオを合成し、目に見えない音声への口唇同期とともに最先端の顔の表情の転送を達成できることを実証します。
要約(オリジナル)
We introduce a novel method for joint expression and audio-guided talking face generation. Recent approaches either struggle to preserve the speaker identity or fail to produce faithful facial expressions. To address these challenges, we propose a NeRF-based network. Since we train our network on monocular videos without any ground truth, it is essential to learn disentangled representations for audio and expression. We first learn audio features in a self-supervised manner, given utterances from multiple subjects. By incorporating a contrastive learning technique, we ensure that the learned audio features are aligned to the lip motion and disentangled from the muscle motion of the rest of the face. We then devise a transformer-based architecture that learns expression features, capturing long-range facial expressions and disentangling them from the speech-specific mouth movements. Through quantitative and qualitative evaluation, we demonstrate that our method can synthesize high-fidelity talking face videos, achieving state-of-the-art facial expression transfer along with lip synchronization to unseen audio.
arxiv情報
著者 | Sai Tanmay Reddy Chakkera,Aggelina Chatziagapi,Dimitris Samaras |
発行日 | 2024-09-18 17:18:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google