Multilingual context-based pronunciation learning for Text-to-Speech


音声情報と言語知識は、音声合成 (TTS) フロントエンドの重要なコンポーネントです。
言語が指定されている場合、辞書はオフラインで収集でき、通常、語彙素と音素 (G2P) の関係は、語彙外 (OOV) 単語の発音を予測するためにモデル化されます。
この研究では、通常は別個のモジュールによって処理される、発音関連のタスクに対処する多言語統合フロントエンド システムを紹介します。
私たちは、G2P 変換や、同形異義語やポリフォンの曖昧さ回避、語彙後のルール、暗黙的な発音区別符号化などのその他の言語固有の課題に関して、提案されたモデルを評価します。


Phonetic information and linguistic knowledge are an essential component of a Text-to-speech (TTS) front-end. Given a language, a lexicon can be collected offline and Grapheme-to-Phoneme (G2P) relationships are usually modeled in order to predict the pronunciation for out-of-vocabulary (OOV) words. Additionally, post-lexical phonology, often defined in the form of rule-based systems, is used to correct pronunciation within or between words. In this work we showcase a multilingual unified front-end system that addresses any pronunciation related task, typically handled by separate modules. We evaluate the proposed model on G2P conversion and other language-specific challenges, such as homograph and polyphones disambiguation, post-lexical rules and implicit diacritization. We find that the multilingual model is competitive across languages and tasks, however, some trade-offs exists when compared to equivalent monolingual solutions.


著者 Giulia Comini,Manuel Sam Ribeiro,Fan Yang,Heereen Shim,Jaime Lorenzo-Trueba
発行日 2023-07-31 14:29:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, eess.AS パーマリンク