StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based Pre-training for Expressive Audiobook Speech Synthesis

要約

オーディオブック用の合成音声の表現品質は、一般化されたモデル アーキテクチャとトレーニング データの不均衡なスタイル分布によって制限されます。
これらの問題に対処するために、この論文では、表現力豊かなオーディオブック音声合成のための VQ-VAE ベースの事前トレーニングを使用した自己教師型スタイル強化方法を提案します。
まず、テキスト スタイル エンコーダーは、ラベルのない大量のテキストのみのデータを使用して事前トレーニングされます。
第 2 に、VQ-VAE に基づくスペクトログラム スタイル抽出器は、複雑なスタイルのバリエーションをカバーする豊富なオーディオ データを使用して、自己教師ありの方法で事前トレーニングされています。
次に、2 つのエンコーダ/デコーダ パスを備えた新しいアーキテクチャが、スタイル抽出プログラムのガイダンスに従って、発音と高レベルのスタイル表現力をそれぞれモデル化するように特別に設計されています。
客観的評価と主観的評価の両方により、私たちの提案した方法が、特に役割およびドメイン外のシナリオにおいて、オーディオブック合成における合成音声の自然さと表現力を効果的に改善できることが実証されています。

要約(オリジナル)

The expressive quality of synthesized speech for audiobooks is limited by generalized model architecture and unbalanced style distribution in the training data. To address these issues, in this paper, we propose a self-supervised style enhancing method with VQ-VAE-based pre-training for expressive audiobook speech synthesis. Firstly, a text style encoder is pre-trained with a large amount of unlabeled text-only data. Secondly, a spectrogram style extractor based on VQ-VAE is pre-trained in a self-supervised manner, with plenty of audio data that covers complex style variations. Then a novel architecture with two encoder-decoder paths is specially designed to model the pronunciation and high-level style expressiveness respectively, with the guidance of the style extractor. Both objective and subjective evaluations demonstrate that our proposed method can effectively improve the naturalness and expressiveness of the synthesized speech in audiobook synthesis especially for the role and out-of-domain scenarios.

arxiv情報

著者 Xueyuan Chen,Xi Wang,Shaofei Zhang,Lei He,Zhiyong Wu,Xixin Wu,Helen Meng
発行日 2023-12-19 14:13:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク