A unified front-end framework for English text-to-speech synthesis

要約

フロントエンドは英語音声合成 (TTS) システムの重要なコンポーネントであり、韻律や音素など、音声合成モデルが音声を合成するために不可欠な言語特徴を抽出する役割を果たします。
英語の TTS フロントエンドは通常、テキスト正規化 (TN) モジュール、韻律単語韻律フレーズ (PWPP) モジュール、および書記素から音素への変換 (G2P) モジュールで構成されます。
ただし、英語の TTS フロントエンドに関する現在の研究は、個々のモジュールのみに焦点を当てており、モジュール間の相互依存性が無視されているため、各モジュールのパフォーマンスが最適化されていません。
したがって、この文書では、英語の TTS フロントエンド モジュール間の依存関係を把握する統合フロントエンド フレームワークを提案します。
広範な実験により、提案された方法がすべてのモジュールで最先端 (SOTA) のパフォーマンスを達成することが実証されました。

要約(オリジナル)

The front-end is a critical component of English text-to-speech (TTS) systems, responsible for extracting linguistic features that are essential for a text-to-speech model to synthesize speech, such as prosodies and phonemes. The English TTS front-end typically consists of a text normalization (TN) module, a prosody word prosody phrase (PWPP) module, and a grapheme-to-phoneme (G2P) module. However, current research on the English TTS front-end focuses solely on individual modules, neglecting the interdependence between them and resulting in sub-optimal performance for each module. Therefore, this paper proposes a unified front-end framework that captures the dependencies among the English TTS front-end modules. Extensive experiments have demonstrated that the proposed method achieves state-of-the-art (SOTA) performance in all modules.

arxiv情報

著者 Zelin Ying,Chen Li,Yu Dong,Qiuqiang Kong,Qiao Tian,Yuanyuan Huo,Yuxuan Wang
発行日 2024-03-25 10:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク