Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech

要約

この作業の目標は、顔の特徴から学習した話し方と声による、ゼロショットのテキストから音声への合成です。
顔を見たときにその人の声を想像できるという自然な事実に着想を得て、Face と呼ばれる目に見える属性から学習した統一フレームワーク内に、顔スタイルの拡散テキスト読み上げ (TTS) モデルを導入します。
TTS。
顔画像が TTS モデルのトレーニングの条件として使用されるのはこれが初めてです。
クロスモデル バイオメトリクスと TTS モデルを共同でトレーニングして、顔画像と生成された音声セグメントの間で話者のアイデンティティを維持します。
また、話者埋め込み空間で生成された音声セグメントとグラウンド トゥルース音声セグメントの類似性を強化するために、話者特徴結合損失を提案します。
生体認証情報は顔画像から直接抽出されるため、この方法では、見えない話者や聞こえない話者から音声を生成するための追加の微調整手順は必要ありません。
バックグラウンド ノイズと多様な話し方を含む野生の視聴覚コーパスである LRS3 データセットでモデルをトレーニングし、評価します。
プロジェクト ページは https://facetts.github.io です。

要約(オリジナル)

The goal of this work is zero-shot text-to-speech synthesis, with speaking styles and voices learnt from facial characteristics. Inspired by the natural fact that people can imagine the voice of someone when they look at his or her face, we introduce a face-styled diffusion text-to-speech (TTS) model within a unified framework learnt from visible attributes, called Face-TTS. This is the first time that face images are used as a condition to train a TTS model. We jointly train cross-model biometrics and TTS models to preserve speaker identity between face images and generated speech segments. We also propose a speaker feature binding loss to enforce the similarity of the generated and the ground truth speech segments in speaker embedding space. Since the biometric information is extracted directly from the face image, our method does not require extra fine-tuning steps to generate speech from unseen and unheard speakers. We train and evaluate the model on the LRS3 dataset, an in-the-wild audio-visual corpus containing background noise and diverse speaking styles. The project page is https://facetts.github.io.

arxiv情報

著者 Jiyoung Lee,Joon Son Chung,Soo-Whan Chung
発行日 2023-02-27 11:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS パーマリンク