Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild

要約

この作業では、野生の任意の話者のサイレント リップ ビデオから音声を生成する問題に対処します。
以前の作品とはまったく対照的に、私たちの方法は、(i) 固定数の話者に制限されず、(ii) ドメインまたは語彙に明示的に制約を課さず、(iii) 野生で記録されたビデオを次のように扱います。
実験室の設定内では反対です。
このタスクには多くの課題がありますが、その重要な 1 つは、音声、ピッチ、言語コンテンツなど、目的のターゲット スピーチの多くの特徴が無声の顔のビデオから完全に推測できないことです。
これらの確率的変動を処理するために、変動の中で唇と音声シーケンスを関連付けることを学習する新しい VAE-GAN アーキテクチャを提案します。
トレーニング プロセスを導く複数の強力なディスクリミネーターの助けを借りて、当社のジェネレーターは、あらゆる人の唇の動きに対して、あらゆる声の音声シーケンスを合成することを学習します。
複数のデータセットでの広範な実験により、すべてのベースラインよりも大幅に優れていることが示されています。
さらに、特定の ID のビデオでネットワークを微調整して、4 倍のデータでトレーニングされた単一話者モデルに匹敵するパフォーマンスを実現できます。
私たちは、アーキテクチャのさまざまなモジュールの効果を分析するために、多数のアブレーション研究を実施しています。
また、いくつかの定性的な結果を示したデモ ビデオを、コードとトレーニング済みのモデルとともに Web サイトで提供しています: \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/lip-to-speech
-合成}}

要約(オリジナル)

In this work, we address the problem of generating speech from silent lip videos for any speaker in the wild. In stark contrast to previous works, our method (i) is not restricted to a fixed number of speakers, (ii) does not explicitly impose constraints on the domain or the vocabulary and (iii) deals with videos that are recorded in the wild as opposed to within laboratory settings. The task presents a host of challenges, with the key one being that many features of the desired target speech, like voice, pitch and linguistic content, cannot be entirely inferred from the silent face video. In order to handle these stochastic variations, we propose a new VAE-GAN architecture that learns to associate the lip and speech sequences amidst the variations. With the help of multiple powerful discriminators that guide the training process, our generator learns to synthesize speech sequences in any voice for the lip movements of any person. Extensive experiments on multiple datasets show that we outperform all baselines by a large margin. Further, our network can be fine-tuned on videos of specific identities to achieve a performance comparable to single-speaker models that are trained on $4\times$ more data. We conduct numerous ablation studies to analyze the effect of different modules of our architecture. We also provide a demo video that demonstrates several qualitative results along with the code and trained models on our website: \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/lip-to-speech-synthesis}}

arxiv情報

著者 Sindhu B Hegde,K R Prajwal,Rudrabha Mukhopadhyay,Vinay P Namboodiri,C. V. Jawahar
発行日 2022-09-01 17:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS パーマリンク