要約
話し顔の生成は、その幅広い適用性のために広く研究されてきました。
会話面の生成に使用される 2 つの主要なフレームワークは、同期された音声と会話面をテキストから生成するテキスト駆動型フレームワークと、音声から会話面を生成する音声駆動型フレームワークで構成されます。
これらのフレームワークを統合するために、このホワイト ペーパーでは、統合された顔ランドマーク ジェネレーター (UniFLG) を提案します。
提案されたシステムは、音声を合成するためだけでなく、テキストと音声に共通する一連の潜在表現を抽出するためにエンドツーエンドのテキスト読み上げを利用し、それをランドマーク デコーダーに供給して顔のランドマークを生成します。
最先端のテキスト駆動方式と比較して、音声合成と顔ランドマーク生成の両方で、システムがより高い自然さを達成することを実証します。
さらに、システムが、顔のビデオ データや音声データさえも使用せずに、話者の音声から顔のランドマークを生成できることを示します。
要約(オリジナル)
Talking face generation has been extensively investigated owing to its wide applicability. The two primary frameworks used for talking face generation comprise a text-driven framework, which generates synchronized speech and talking faces from text, and a speech-driven framework, which generates talking faces from speech. To integrate these frameworks, this paper proposes a unified facial landmark generator (UniFLG). The proposed system exploits end-to-end text-to-speech not only for synthesizing speech but also for extracting a series of latent representations that are common to text and speech, and feeds it to a landmark decoder to generate facial landmarks. We demonstrate that our system achieves higher naturalness in both speech synthesis and facial landmark generation compared to the state-of-the-art text-driven method. We further demonstrate that our system can generate facial landmarks from speech of speakers without facial video data or even speech data.
arxiv情報
著者 | Kentaro Mitsui,Yukiya Hono,Kei Sawada |
発行日 | 2023-02-28 06:05:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google