Zero-Shot vs. Few-Shot Multi-Speaker TTS Using Pre-trained Czech SpeechT5 Model

要約

この論文では、大規模なデータセットで事前トレーニングされた SpeechT5 モデルを実験しました。
私たちは基礎モデルをゼロから事前トレーニングし、大規模で堅牢なマルチスピーカーのテキスト読み上げ (TTS) タスクで微調整しました。
ゼロショットおよび数ショットのシナリオでモデルの機能をテストしました。
2 つのリスニング テストに基づいて、合成オーディオの品質と、合成音声が実際の音声にどのように似ているかの類似性を評価しました。
私たちの結果は、SpeechT5 モデルが対象話者の 1 分間のデータのみを使用して、任意の話者の合成音声を生成できることを示しました。
私たちは、公に知られているチェコの政治家や有名人に対する合成音声の高品質と類似性を実証することに成功しました。

要約(オリジナル)

In this paper, we experimented with the SpeechT5 model pre-trained on large-scale datasets. We pre-trained the foundation model from scratch and fine-tuned it on a large-scale robust multi-speaker text-to-speech (TTS) task. We tested the model capabilities in a zero- and few-shot scenario. Based on two listening tests, we evaluated the synthetic audio quality and the similarity of how synthetic voices resemble real voices. Our results showed that the SpeechT5 model can generate a synthetic voice for any speaker using only one minute of the target speaker’s data. We successfully demonstrated the high quality and similarity of our synthetic voices on publicly known Czech politicians and celebrities.

arxiv情報

著者 Jan Lehečka,Zdeněk Hanzlíček,Jindřich Matoušek,Daniel Tihelka
発行日 2024-07-24 11:14:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク