DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer


中立的な TTS は大きな成功を収めましたが、コンテンツの漏洩は依然として課題です。
TTS でのディスクリート コードの使用における最近の成功に触発され、リファレンス エンコーダの入力にディスクリート コードを導入しました。
さらに、修正された MLP-Mixer をリファレンス エンコーダーに適用し、アーキテクチャを軽量化します。
その結果、韻律転送 TTS をエンドツーエンドの方法でトレーニングします。
実験で離散コードを入力として利用した場合、リファレンス エンコーダが話者に依存しない韻律をより適切に学習することを実証します。


Despite the huge successes made in neutral TTS, content-leakage remains a challenge. In this paper, we propose a new input representation and simple architecture to achieve improved prosody modeling. Inspired by the recent success in the use of discrete code in TTS, we introduce discrete code to the input of the reference encoder. Specifically, we leverage the vector quantizer from the audio compression model to exploit the diverse acoustic information it has already been trained on. In addition, we apply the modified MLP-Mixer to the reference encoder, making the architecture lighter. As a result, we train the prosody transfer TTS in an end-to-end manner. We prove the effectiveness of our method through both subjective and objective evaluations. We demonstrate that the reference encoder learns better speaker-independent prosody when discrete code is utilized as input in the experiments. In addition, we obtain comparable results even when fewer parameters are inputted.


著者 Yerin Choi,Myoung-Wan Koo
発行日 2023-06-12 06:10:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク