QS-TTS: Towards Semi-Supervised Text-to-Speech Synthesis via Vector-Quantized Self-Supervised Speech Representation Learning

要約

本論文では、より多くの非ラベル音声を利用したベクトル量子化自己教師付き音声表現学習(VQ-S3RL)により、より少ない教師付きデータ要件でTTS品質を向上させる、新しい半教師付きTTSフレームワークであるQS-TTSを提案する。このフレームワークは2つのVQ-S3R学習者から構成される。まず、主学習者はMSMC-VQ-GANと対照的S3RLを組み合わせることで、生成的な多段階マルチコードブック(MSMC)VQ-S3Rを提供し、高品質な音声にデコードすることを目指す。これら2つの生成的VQ-S3R学習により、TTSのための有益な音声表現と事前訓練されたモデルが提供され、教師付きデータの必要性が低くなり、合成品質が大幅に向上する。QS-TTSは、主観的および客観的なテストにより、様々なシナリオの下で総合的に評価される。その結果、特に低リソースシナリオにおいて、教師ありまたは半教師ありのベースラインTTSアプローチに対して最高のMOSを獲得し、QS-TTSの優れた性能を強力に実証した。さらに、TTSにおける様々な音声表現と伝達学習法を比較することで、提案されたVQ-S3RLのTTSに対する顕著な改善がさらに検証され、最高の音質と明瞭度のメトリクスが示された。また、教師付きデータが減少するにつれてQS-TTSの合成品質の減衰が緩やかになる傾向は、教師付きデータに対する要求が低いことをさらに強調し、低リソースシナリオにおける大きな可能性を示している。

要約(オリジナル)

This paper proposes a novel semi-supervised TTS framework, QS-TTS, to improve TTS quality with lower supervised data requirements via Vector-Quantized Self-Supervised Speech Representation Learning (VQ-S3RL) utilizing more unlabeled speech audio. This framework comprises two VQ-S3R learners: first, the principal learner aims to provide a generative Multi-Stage Multi-Codebook (MSMC) VQ-S3R via the MSMC-VQ-GAN combined with the contrastive S3RL, while decoding it back to the high-quality audio; then, the associate learner further abstracts the MSMC representation into a highly-compact VQ representation through a VQ-VAE. These two generative VQ-S3R learners provide profitable speech representations and pre-trained models for TTS, significantly improving synthesis quality with the lower requirement for supervised data. QS-TTS is evaluated comprehensively under various scenarios via subjective and objective tests in experiments. The results powerfully demonstrate the superior performance of QS-TTS, winning the highest MOS over supervised or semi-supervised baseline TTS approaches, especially in low-resource scenarios. Moreover, comparing various speech representations and transfer learning methods in TTS further validates the notable improvement of the proposed VQ-S3RL to TTS, showing the best audio quality and intelligibility metrics. The trend of slower decay in the synthesis quality of QS-TTS with decreasing supervised data further highlights its lower requirements for supervised data, indicating its great potential in low-resource scenarios.

arxiv情報

著者 Haohan Guo,Fenglong Xie,Jiawen Kang,Yujia Xiao,Xixin Wu,Helen Meng
発行日 2023-08-31 20:25:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク