Lip-to-Speech Synthesis in the Wild with Multi-task Learning

要約

最近の研究では、視覚情報のみから音声を再構築することを目的とした口語合成で印象的なパフォーマンスが示されています。
しかし、正しい内容を推論するようにモデルを誘導するための監督が不十分なため、彼らは野生で正確な音声を合成することに苦しんできました。
以前の方法とは異なり、この論文では、野生の環境でも、入力された唇の動きから正しい内容で音声を再構築できる強力な Lip2Speech メソッドを開発します。
この目的のために、音響特徴再構成損失の不十分な単語表現を補完するために、マルチモーダル監視、つまりテキストとオーディオを使用してモデルを導くマルチタスク学習を設計します。
したがって、提案されたフレームワークは、複数の話者の適切な内容を含む音声を制約のない文で合成するという利点をもたらします。
LRS2、LRS3、LRW データセットを使用して、提案手法の有効性を検証します。

要約(オリジナル)

Recent studies have shown impressive performance in Lip-to-speech synthesis that aims to reconstruct speech from visual information alone. However, they have been suffering from synthesizing accurate speech in the wild, due to insufficient supervision for guiding the model to infer the correct content. Distinct from the previous methods, in this paper, we develop a powerful Lip2Speech method that can reconstruct speech with correct contents from the input lip movements, even in a wild environment. To this end, we design multi-task learning that guides the model using multimodal supervision, i.e., text and audio, to complement the insufficient word representations of acoustic feature reconstruction loss. Thus, the proposed framework brings the advantage of synthesizing speech containing the right content of multiple speakers with unconstrained sentences. We verify the effectiveness of the proposed method using LRS2, LRS3, and LRW datasets.

arxiv情報

著者 Minsu Kim,Joanna Hong,Yong Man Ro
発行日 2023-02-17 12:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク