Strategies in Transfer Learning for Low-Resource Speech Synthesis: Phone Mapping, Features Input, and Source Language Selection


PHOIBLE ベースの音マッピング手法の使用と、低リソース言語での TTS の転移学習における音韻特徴入力の使用を比較します。
私たちは、多様なソース言語 (英語、フィンランド語、ヒンディー語、日本語、ロシア語) とターゲット言語 (ブルガリア語、グルジア語、カザフ語、スワヒリ語、ウルドゥー語、ウズベク語) を使用して、手法の言語非依存性をテストし、結果の適用可能性を高めます。
また、転移学習におけるソース言語を選択する基準として、最近提案された電話周波数の角度類似性 (ASPF) を家系図ベースの距離測定と比較します。
ASPF は、ラベルベースの電話入力が使用されている場合に効果的であることが証明されていますが、言語距離には期待される効果がありません。


We compare using a PHOIBLE-based phone mapping method and using phonological features input in transfer learning for TTS in low-resource languages. We use diverse source languages (English, Finnish, Hindi, Japanese, and Russian) and target languages (Bulgarian, Georgian, Kazakh, Swahili, Urdu, and Uzbek) to test the language-independence of the methods and enhance the findings’ applicability. We use Character Error Rates from automatic speech recognition and predicted Mean Opinion Scores for evaluation. Results show that both phone mapping and features input improve the output quality and the latter performs better, but these effects also depend on the specific language combination. We also compare the recently-proposed Angular Similarity of Phone Frequencies (ASPF) with a family tree-based distance measure as a criterion to select source languages in transfer learning. ASPF proves effective if label-based phone input is used, while the language distance does not have expected effects.


著者 Phat Do,Matt Coler,Jelske Dijkstra,Esther Klabbers
発行日 2023-06-21 06:12:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, eess.AS パーマリンク