要約
この作業の目標は、自然な話し顔とテキストからの音声出力を同時に生成することです。
これは、Talking Face Generation (TFG) および Text-to-Speech (TTS) システムを統合フレームワークに統合することで実現されます。
私たちは各タスクの主な課題に取り組みます。(1) 現実世界のシナリオを表すさまざまな頭のポーズを生成すること、(2) 同じアイデンティティに対する顔の動きの変化にもかかわらず音声の一貫性を確保すること。
これらの問題に対処するために、条件付きフロー マッチングに基づくモーション サンプラーを導入します。これは、効率的な方法で高品質のモーション コードを生成できます。
さらに、TFG モデルから動きを除去した特徴を利用して均一な音声出力を生成する、TTS システム用の新しい調整方法を導入します。
私たちの広範な実験により、私たちの方法が入力テキストと正確に一致する自然な話し顔と音声を効果的に作成できることが実証されました。
私たちの知る限り、これは目に見えないアイデンティティを一般化できるマルチモーダル合成システムを構築する最初の取り組みです。
要約(オリジナル)
The goal of this work is to simultaneously generate natural talking faces and speech outputs from text. We achieve this by integrating Talking Face Generation (TFG) and Text-to-Speech (TTS) systems into a unified framework. We address the main challenges of each task: (1) generating a range of head poses representative of real-world scenarios, and (2) ensuring voice consistency despite variations in facial motion for the same identity. To tackle these issues, we introduce a motion sampler based on conditional flow matching, which is capable of high-quality motion code generation in an efficient way. Moreover, we introduce a novel conditioning method for the TTS system, which utilises motion-removed features from the TFG model to yield uniform speech outputs. Our extensive experiments demonstrate that our method effectively creates natural-looking talking faces and speech that accurately match the input text. To our knowledge, this is the first effort to build a multimodal synthesis system that can generalise to unseen identities.
arxiv情報
著者 | Youngjoon Jang,Ji-Hoon Kim,Junseok Ahn,Doyeop Kwak,Hong-Sun Yang,Yoon-Cheol Ju,Il-Hwan Kim,Byeong-Yeol Kim,Joon Son Chung |
発行日 | 2024-05-16 17:29:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google