要約
台湾のマンダリンに特に適応したテキストからスピーチ(TTS)システムであるBreezyvoiceを提示し、言語のポリフォーネの乱用のユニークな課題に対処するための音声管理能力を強調しています。
Cosyvoiceに基づいて、$ s^{3} $トークンザー、大規模な言語モデル(LLM)、最適な輸送条件付きフローマッチングモデル(OT-CFM)、および音素予測モデルを組み込み、現実的な音声を生成します。
それは人間の発言を密接に模倣しています。
私たちの評価は、一般的なコンテキストとコードスイッチングコンテキストの両方でBreezyvoiceの優れたパフォーマンスを示しており、高忠実度のスピーチを生成する際の堅牢性と有効性を強調しています。
さらに、ロングテールスピーカーのモデリングとポリフォーネの曖昧性を除去する際の一般化の課題に対処します。
私たちのアプローチは、パフォーマンスを大幅に向上させ、神経コーデックTTSシステムの動作に関する貴重な洞察を提供します。
要約(オリジナル)
We present BreezyVoice, a Text-to-Speech (TTS) system specifically adapted for Taiwanese Mandarin, highlighting phonetic control abilities to address the unique challenges of polyphone disambiguation in the language. Building upon CosyVoice, we incorporate a $S^{3}$ tokenizer, a large language model (LLM), an optimal-transport conditional flow matching model (OT-CFM), and a grapheme to phoneme prediction model, to generate realistic speech that closely mimics human utterances. Our evaluation demonstrates BreezyVoice’s superior performance in both general and code-switching contexts, highlighting its robustness and effectiveness in generating high-fidelity speech. Additionally, we address the challenges of generalizability in modeling long-tail speakers and polyphone disambiguation. Our approach significantly enhances performance and offers valuable insights into the workings of neural codec TTS systems.
arxiv情報
著者 | Chan-Jan Hsu,Yi-Cheng Lin,Chia-Chun Lin,Wei-Chih Chen,Ho Lam Chung,Chen-An Li,Yi-Chang Chen,Chien-Yu Yu,Ming-Ji Lee,Chien-Cheng Chen,Ru-Heng Huang,Hung-yi Lee,Da-Shan Shiu |
発行日 | 2025-01-29 17:31:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google