Strategies in Transfer Learning for Low-Resource Speech Synthesis: Phone Mapping, Features Input, and Source Language Selection

要約

PHOIBLE ベースの音マッピング手法の使用と、低リソース言語での TTS の転移学習における音韻特徴入力の使用を比較します。
私たちは、多様なソース言語 (英語、フィンランド語、ヒンディー語、日本語、ロシア語) とターゲット言語 (ブルガリア語、グルジア語、カザフ語、スワヒリ語、ウルドゥー語、ウズベク語) を使用して、手法の言語非依存性をテストし、結果の適用可能性を高めます。
評価には自動音声認識からの文字誤り率と予測平均意見スコアを使用します。
結果は、電話マッピングと特徴入力の両方が出力品質を向上させ、後者のパフォーマンスが向上することを示していますが、これらの効果は特定の言語の組み合わせにも依存します。
また、転移学習におけるソース言語を選択する基準として、最近提案された電話周波数の角度類似性 (ASPF) を家系図ベースの距離測定と比較します。
ASPF は、ラベルベースの電話入力が使用されている場合に効果的であることが証明されていますが、言語距離には期待される効果がありません。

要約(オリジナル)

We compare using a PHOIBLE-based phone mapping method and using phonological features input in transfer learning for TTS in low-resource languages. We use diverse source languages (English, Finnish, Hindi, Japanese, and Russian) and target languages (Bulgarian, Georgian, Kazakh, Swahili, Urdu, and Uzbek) to test the language-independence of the methods and enhance the findings’ applicability. We use Character Error Rates from automatic speech recognition and predicted Mean Opinion Scores for evaluation. Results show that both phone mapping and features input improve the output quality and the latter performs better, but these effects also depend on the specific language combination. We also compare the recently-proposed Angular Similarity of Phone Frequencies (ASPF) with a family tree-based distance measure as a criterion to select source languages in transfer learning. ASPF proves effective if label-based phone input is used, while the language distance does not have expected effects.

arxiv情報

著者 Phat Do,Matt Coler,Jelske Dijkstra,Esther Klabbers
発行日 2023-06-21 06:12:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク