要約
私たちが話すとき、韻律とスピーチの内容は私たちの唇の動きから推測することができます。
この作業では、唇から音声への合成のタスクを調査します。つまり、制約のない大きな語彙設定で複数の話者の正確な唇から音声へのマッピングを学習することに焦点を当て、話者の唇の動きだけを考慮して音声を生成する方法を学習します。
話者の声のアイデンティティを顔の特徴、つまり年齢、性別、民族性を通じてキャプチャし、唇の動きとともに調整して、話者のアイデンティティを意識した音声を生成します。
この目的のために、制約のないシナリオで正確な唇から音声への合成を実現するための重要な設計上の選択肢を備えた、新しい方法「Lip2Speech」を紹介します。
また、定量的、定性的な測定基準と人間による評価を使用して、さまざまな実験と広範な評価を行います。
要約(オリジナル)
When we speak, the prosody and content of the speech can be inferred from the movement of our lips. In this work, we explore the task of lip to speech synthesis, i.e., learning to generate speech given only the lip movements of a speaker where we focus on learning accurate lip to speech mappings for multiple speakers in unconstrained, large vocabulary settings. We capture the speaker’s voice identity through their facial characteristics, i.e., age, gender, ethnicity and condition them along with the lip movements to generate speaker identity aware speech. To this end, we present a novel method ‘Lip2Speech’, with key design choices to achieve accurate lip to speech synthesis in unconstrained scenarios. We also perform various experiments and extensive evaluation using quantitative, qualitative metrics and human evaluation.
arxiv情報
著者 | Christen Millerdurai,Lotfy Abdel Khaliq,Timon Ulrich |
発行日 | 2022-06-28 13:52:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google