Let There Be Sound: Reconstructing High Quality Speech from Silent Videos

要約

この研究の目標は、唇の動きだけから高品質の音声を再構築することであり、このタスクは口唇合成とも呼ばれます。
Lip-to-Speech システムの主な課題は、(1) 同音異義語の存在、および (2) 複数の音声バリエーションによって引き起こされる 1 対多のマッピングであり、その結果、音声が誤って発音され、過度に平滑化されてしまいます。
この論文では、複数の観点から 1 対多のマッピング問題を軽減することで生成品質を大幅に向上させる、新しい口唇合成システムを提案します。
具体的には、(1) 同音異義語を明確にするための自己教師付き音声表現、および (2) 多様な音声スタイルをモデル化するための音響分散情報を組み込みます。
さらに、前述の問題をより適切に解決するために、生成された音声の詳細をキャプチャして調整するフローベースのポストネットを採用しています。
私たちは広範な実験を行い、私たちの方法が実際の人間の発話に近い生成品質を達成し、音声の自然さと明瞭さの点で既存の方法を大幅に上回っていることを実証しました。
合成されたサンプルは、匿名のデモ ページ https://mm.kaist.ac.kr/projects/LTBS で入手できます。

要約(オリジナル)

The goal of this work is to reconstruct high quality speech from lip motions alone, a task also known as lip-to-speech. A key challenge of lip-to-speech systems is the one-to-many mapping caused by (1) the existence of homophenes and (2) multiple speech variations, resulting in a mispronounced and over-smoothed speech. In this paper, we propose a novel lip-to-speech system that significantly improves the generation quality by alleviating the one-to-many mapping problem from multiple perspectives. Specifically, we incorporate (1) self-supervised speech representations to disambiguate homophenes, and (2) acoustic variance information to model diverse speech styles. Additionally, to better solve the aforementioned problem, we employ a flow based post-net which captures and refines the details of the generated speech. We perform extensive experiments and demonstrate that our method achieves the generation quality close to that of real human utterance, outperforming existing methods in terms of speech naturalness and intelligibility by a large margin. Synthesised samples are available at the anonymous demo page: https://mm.kaist.ac.kr/projects/LTBS.

arxiv情報

著者 Ji-Hoon Kim,Jaehun Kim,Joon Son Chung
発行日 2023-08-29 12:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク