Let There Be Sound: Reconstructing High Quality Speech from Silent Videos

要約

この研究の目標は、唇の動きのみから高品質の音声を再構成することであり、このタスクは音声合成としても知られている。口唇音声合成システムの主な課題は、(1)ホモフェーンの存在、(2)複数の音声バリエーション、によって引き起こされる1対多のマッピングであり、その結果、誤った発音や過剰に滑らかにされた音声が生成される。本論文では、この一対多写像の問題を多角的に解決することで、生成品質を大幅に改善する新しい音声合成システムを提案する。具体的には、(1)同音異義語の曖昧性を解消するための自己教師付き音声表現、(2)多様な発話スタイルをモデル化するための音響分散情報を組み込む。さらに、前述の問題をよりよく解決するために、生成された音声の詳細を捕捉し洗練するフローベースのポストネットを採用する。我々は2つのデータセットで広範な実験を行い、我々の手法が実際の人間の発話に近い生成品質を達成し、音声の自然さと明瞭さの点で既存の手法を大きく上回ることを実証する。合成されたサンプルはデモページ(https://mm.kaist.ac.kr/projects/LTBS)でご覧いただけます。

要約(オリジナル)

The goal of this work is to reconstruct high quality speech from lip motions alone, a task also known as lip-to-speech. A key challenge of lip-to-speech systems is the one-to-many mapping caused by (1) the existence of homophenes and (2) multiple speech variations, resulting in a mispronounced and over-smoothed speech. In this paper, we propose a novel lip-to-speech system that significantly improves the generation quality by alleviating the one-to-many mapping problem from multiple perspectives. Specifically, we incorporate (1) self-supervised speech representations to disambiguate homophenes, and (2) acoustic variance information to model diverse speech styles. Additionally, to better solve the aforementioned problem, we employ a flow based post-net which captures and refines the details of the generated speech. We perform extensive experiments on two datasets, and demonstrate that our method achieves the generation quality close to that of real human utterance, outperforming existing methods in terms of speech naturalness and intelligibility by a large margin. Synthesised samples are available at our demo page: https://mm.kaist.ac.kr/projects/LTBS.

arxiv情報

著者 Ji-Hoon Kim,Jaehun Kim,Joon Son Chung
発行日 2024-01-04 11:10:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク