要約
中国語のテキスト読み上げ (TTS) システムにおける重要な問題の 1 つは、書記素から音素への (G2P) 変換を行う際のポリフォンの曖昧さの解消です。
本稿では、この問題を生成タスクとして解決するための新しい方法を紹介します。
大規模言語モデル (LLM) と即時学習のトレンド研究に従って、提案された方法は 3 つのモジュールで構成されます。
検索モジュールには、文をプロンプトにフォーマットするための中国語多音文字のマルチレベル意味辞書である外部知識が組み込まれています。
生成モジュールは、デコーダ専用の Transformer アーキテクチャを採用して、ターゲット テキストを誘導します。
ポストプロセス モジュールは、必要に応じて、生成されたテキストを有効な結果に修正します。
実験結果は、CPP と呼ばれる公開データセット上で、私たちの方法が既存の方法よりも優れていることを示しています。
また、プロンプトのさまざまなテンプレート、さまざまなサイズのトレーニング データの影響、および外部の知識を組み込むかどうかについても経験的に研究します。
要約(オリジナル)
One of the key issues in Mandarin Chinese text-to-speech (TTS) systems is polyphone disambiguation when doing grapheme-to-phoneme (G2P) conversion. In this paper, we introduce a novel method to solve the problem as a generation task. Following the trending research of large language models (LLM) and prompt learning, the proposed method consists of three modules. Retrieval module incorporates external knowledge which is a multi-level semantic dictionary of Chinese polyphonic characters to format the sentence into a prompt. Generation module adopts the decoder-only Transformer architecture to induce the target text. Postprocess module corrects the generated text into a valid result if needed. Experimental results show that our method outperforms the existing methods on a public dataset called CPP. We also empirically study the impacts of different templates of the prompt, different sizes of training data, and whether to incorporate external knowledge.
arxiv情報
著者 | Chen Li |
発行日 | 2023-12-19 08:00:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google