要約
書記素から音素 (G2P) への変換は、標準のテキスト読み上げ (TTS) パイプラインの一部です。
ただし、G2P 変換は、異義語 (スペルが 1 つでも複数の発音が可能な単語) を含む言語では困難です。
注釈付きの異名を持つ G2P データセットは、サイズが限られており、作成するのに費用がかかります。
RAD-TTS Aligner ベースのパイプラインを提案して、オーディオとテキスト トランスクリプトの両方を含むデータセット内のヘテロニムを自動的に明確にします。
最良の発音は、異音語ごとに可能なすべての候補を生成し、Aligner モデルでそれらをスコアリングすることによって選択できます。
結果のラベルを使用して、マルチステージおよびエンドツーエンド G2P システムの両方で使用するトレーニング データセットを作成できます。
要約(オリジナル)
Grapheme-to-phoneme (G2P) transduction is part of the standard text-to-speech (TTS) pipeline. However, G2P conversion is difficult for languages that contain heteronyms — words that have one spelling but can be pronounced in multiple ways. G2P datasets with annotated heteronyms are limited in size and expensive to create, as human labeling remains the primary method for heteronym disambiguation. We propose a RAD-TTS Aligner-based pipeline to automatically disambiguate heteronyms in datasets that contain both audio with text transcripts. The best pronunciation can be chosen by generating all possible candidates for each heteronym and scoring them with an Aligner model. The resulting labels can be used to create training datasets for use in both multi-stage and end-to-end G2P systems.
arxiv情報
著者 | Jocelyn Huang,Evelina Bakhturina,Oktai Tatanov |
発行日 | 2023-02-28 12:33:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google