Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis

要約

テキストツースピック(TTS)テクノロジーは、広く話されている言語で印象的な結果を達成していますが、多くのリソース不足の言語は、限られたデータと言語の複雑さによって依然として挑戦されています。
このペーパーでは、データ最適化されたフレームワークを高度な音響モデルと統合して、低リソースシナリオ向けの高品質のTTSシステムを構築する新しい方法論を紹介します。
複雑な音声ルールとまばらなリソースが効果的に対処されている例として、タイ人を使用してアプローチの有効性を実証します。
当社の方法により、財務からヘルスケア、教育、法律に至るまで、ゼロショットの音声クローニングと多様なクライアントアプリケーション全体のパフォーマンスの向上が可能になります。
主観的および目的の両方である広範な評価 – 私たちのモデルが最先端の基準を満たしていることを確認し、データ制限された設定でのTTS生産のためのスケーラブルなソリューションを提供し、より広範な業界の採用と多言語のアクセシビリティに大きな影響を与えます。

要約(オリジナル)

Text-to-speech (TTS) technology has achieved impressive results for widely spoken languages, yet many under-resourced languages remain challenged by limited data and linguistic complexities. In this paper, we present a novel methodology that integrates a data-optimized framework with an advanced acoustic model to build high-quality TTS systems for low-resource scenarios. We demonstrate the effectiveness of our approach using Thai as an illustrative case, where intricate phonetic rules and sparse resources are effectively addressed. Our method enables zero-shot voice cloning and improved performance across diverse client applications, ranging from finance to healthcare, education, and law. Extensive evaluations – both subjective and objective – confirm that our model meets state-of-the-art standards, offering a scalable solution for TTS production in data-limited settings, with significant implications for broader industry adoption and multilingual accessibility.

arxiv情報

著者 Yizhong Geng,Jizhuo Xu,Zeyu Liang,Jinghan Yang,Xiaoyi Shi,Xiaoyu Shen
発行日 2025-04-10 15:32:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD パーマリンク