BreezyVoice: Adapting TTS for Taiwanese Mandarin with Enhanced Polyphone Disambiguation — Challenges and Insights

要約

台湾のマンダリンに特に適応したテキストからスピーチ(TTS)システムであるBreezyvoiceを提示し、言語のポリフォーネの乱用のユニークな課題に対処するための音声管理能力を強調しています。
Cosyvoiceに基づいて、$ s^{3} $トークンザー、大規模な言語モデル(LLM)、最適な輸送条件付きフローマッチングモデル(OT-CFM)、および音素予測モデルを組み込み、現実的な音声を生成します。
それは人間の発言を密接に模倣しています。
私たちの評価は、一般的なコンテキストとコードスイッチングコンテキストの両方でBreezyvoiceの優れたパフォーマンスを示しており、高忠実度のスピーチを生成する際の堅牢性と有効性を強調しています。
さらに、ロングテールスピーカーのモデリングとポリフォーネの曖昧性を除去する際の一般化の課題に対処します。
私たちのアプローチは、パフォーマンスを大幅に向上させ、神経コーデックTTSシステムの動作に関する貴重な洞察を提供します。

要約(オリジナル)

We present BreezyVoice, a Text-to-Speech (TTS) system specifically adapted for Taiwanese Mandarin, highlighting phonetic control abilities to address the unique challenges of polyphone disambiguation in the language. Building upon CosyVoice, we incorporate a $S^{3}$ tokenizer, a large language model (LLM), an optimal-transport conditional flow matching model (OT-CFM), and a grapheme to phoneme prediction model, to generate realistic speech that closely mimics human utterances. Our evaluation demonstrates BreezyVoice’s superior performance in both general and code-switching contexts, highlighting its robustness and effectiveness in generating high-fidelity speech. Additionally, we address the challenges of generalizability in modeling long-tail speakers and polyphone disambiguation. Our approach significantly enhances performance and offers valuable insights into the workings of neural codec TTS systems.

arxiv情報

著者 Chan-Jan Hsu,Yi-Cheng Lin,Chia-Chun Lin,Wei-Chih Chen,Ho Lam Chung,Chen-An Li,Yi-Chang Chen,Chien-Yu Yu,Ming-Ji Lee,Chien-Cheng Chen,Ru-Heng Huang,Hung-yi Lee,Da-Shan Shiu
発行日 2025-01-29 17:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク