Style Description based Text-to-Speech with Conditional Prosodic Layer Normalization based Diffusion GAN

要約

この論文では、わずか 4 つのノイズ除去ステップ内で音声サンプルを生成するための、スタイル記述と入力としてのコンテンツ テキストに基づいて、対応する高忠実度の音声を生成する拡散 GAN ベースのアプローチ (Prosodic Diff-TTS) を紹介します。
新しい条件付き韻律層正規化を利用して、マルチヘッド アテンション ベースの音素エンコーダおよびメル スペクトログラム デコーダ ベースのジェネレータ アーキテクチャにスタイルの埋め込みを組み込み、音声を生成します。
スタイルの埋め込みは、ピッチ、話す速度、感情、性別分類などの補助タスクに関して事前トレーニングされた BERT モデルを微調整することによって生成されます。
生成された精度と MOS を測定する複数の定量的メトリクスを使用して、マルチスピーカー LibriTTS および PromptSpeech データセットに対する提案したアーキテクチャの有効性を実証します。

要約(オリジナル)

In this paper, we present a Diffusion GAN based approach (Prosodic Diff-TTS) to generate the corresponding high-fidelity speech based on the style description and content text as an input to generate speech samples within only 4 denoising steps. It leverages the novel conditional prosodic layer normalization to incorporate the style embeddings into the multi head attention based phoneme encoder and mel spectrogram decoder based generator architecture to generate the speech. The style embedding is generated by fine tuning the pretrained BERT model on auxiliary tasks such as pitch, speaking speed, emotion,gender classifications. We demonstrate the efficacy of our proposed architecture on multi-speaker LibriTTS and PromptSpeech datasets, using multiple quantitative metrics that measure generated accuracy and MOS.

arxiv情報

著者 Neeraj Kumar,Ankur Narang,Brejesh Lall
発行日 2023-10-27 14:28:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク