Data-driven grapheme-to-phoneme representations for a lexicon-free text-to-speech

要約

Grapheme-to-Phoneme (G2P) は、最新の高品質 Text-to-Speech (TTS) システムの重要な最初のステップです。
現在の G2P システムのほとんどは、専門家によって開発された慎重に手作りされた辞書に依存しています。
これには 2 つの問題が生じます。
まず、辞書は固定音素セット (通常は ARPABET または IPA) を使用して生成されますが、これはすべての言語の音素を表す最適な方法ではない可能性があります。
第二に、このような専門用語集を作成するのに必要な工数は非常に膨大です。
この論文では、自己教師あり学習の最近の進歩を利用して、固定表現ではなくデータ駆動型の音素表現を取得することで、これらの問題の両方を解決します。
語彙を使用しないアプローチを、よく作成された語彙を利用した強力なベースラインと比較します。
さらに、データ駆動型の語彙を使用しない手法は、以前の言語語彙や音素セットを使用せずに、平均オピニオン スコア (MOS) の点で従来のルールベースまたは語彙ベースのニューラル G2P と同等かわずかに優れたパフォーマンスを発揮することを示します。
つまり、言語の専門知識がありません。

要約(オリジナル)

Grapheme-to-Phoneme (G2P) is an essential first step in any modern, high-quality Text-to-Speech (TTS) system. Most of the current G2P systems rely on carefully hand-crafted lexicons developed by experts. This poses a two-fold problem. Firstly, the lexicons are generated using a fixed phoneme set, usually, ARPABET or IPA, which might not be the most optimal way to represent phonemes for all languages. Secondly, the man-hours required to produce such an expert lexicon are very high. In this paper, we eliminate both of these issues by using recent advances in self-supervised learning to obtain data-driven phoneme representations instead of fixed representations. We compare our lexicon-free approach against strong baselines that utilize a well-crafted lexicon. Furthermore, we show that our data-driven lexicon-free method performs as good or even marginally better than the conventional rule-based or lexicon-based neural G2Ps in terms of Mean Opinion Score (MOS) while using no prior language lexicon or phoneme set, i.e. no linguistic expertise.

arxiv情報

著者 Abhinav Garg,Jiyeon Kim,Sushil Khyalia,Chanwoo Kim,Dhananjaya Gowda
発行日 2024-01-19 03:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク