A Comparative Study of Self-Supervised Speech Representations in Read and Spontaneous TTS

要約

最近の研究では、標準的な 2 段階 TTS の表現媒体として、従来使用されていたメル スペクトログラムの代わりに、wav2vec2.0 などの自己教師あり学習 (SSL) 音声表現を使用することが検討されています。
ただし、どの音声 SSL が TTS に適しているか、また、読み取り TTS と自発 TTS でパフォーマンスが異なるかどうかは不明であり、後者の方がおそらくより困難です。
この研究は、一定の TTS モデル アーキテクチャとトレーニング設定を維持しながら、同じ SSL の異なる層を含む複数の音声 SSL を、読み上げコーパスと自発コーパスの両方で 2 段階 TTS でテストすることで、これらの疑問に対処することを目的としています。
リスニング テストの結果は、12 層 wav2vec2.0 の 9 番目の層 (ASR 微調整) が、読み取り TTS と自発 TTS の両方において、テストされた他の SSL およびメル スペクトログラムよりも優れていることを示しています。
私たちの研究は、音声 SSL が現在の TTS システムを容易に改善できる方法と、TTS の困難な生成タスクにおいて SSL がどのように比較されるかを明らかにします。
音声の例は https://www.speech.kth.se/tts-demos/ssr_tts でご覧いただけます。

要約(オリジナル)

Recent work has explored using self-supervised learning (SSL) speech representations such as wav2vec2.0 as the representation medium in standard two-stage TTS, in place of conventionally used mel-spectrograms. It is however unclear which speech SSL is the better fit for TTS, and whether or not the performance differs between read and spontaneous TTS, the later of which is arguably more challenging. This study aims at addressing these questions by testing several speech SSLs, including different layers of the same SSL, in two-stage TTS on both read and spontaneous corpora, while maintaining constant TTS model architecture and training settings. Results from listening tests show that the 9th layer of 12-layer wav2vec2.0 (ASR finetuned) outperforms other tested SSLs and mel-spectrogram, in both read and spontaneous TTS. Our work sheds light on both how speech SSL can readily improve current TTS systems, and how SSLs compare in the challenging generative task of TTS. Audio examples can be found at https://www.speech.kth.se/tts-demos/ssr_tts

arxiv情報

著者 Siyang Wang,Gustav Eje Henter,Joakim Gustafson,Éva Székely
発行日 2023-07-10 15:15:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, cs.HC, cs.LG, cs.SD, eess.AS, I.2.6 パーマリンク