要約
Grapheme-to-Phoneme (G2P) タスクは、正書法入力を離散音声表現に変換することを目的としています。
G2P 変換は、テキスト読み上げや音声認識などのさまざまな音声処理アプリケーションに有益です。
ただし、これらは手動で注釈を付けた発音辞書に依存する傾向があり、取得には時間と費用がかかることがよくあります。
この論文では、音声録音から発音例を学習することにより、G2P 変換タスクを改善する方法を提案します。
私たちのアプローチは、注釈付きのサンプルの小さなセットを使用して G2P をブートストラップします。
G2P モデルは、多言語電話認識システムをトレーニングするために使用され、音声表現を使用して音声録音をデコードします。
仮定された音素ラベルを基に、語彙外の単語の発音辞書を学習し、それを使用して G2P システムを再トレーニングします。
結果は、私たちのアプローチが、言語や利用可能なデータ量を問わず、G2P システムの電話エラー率を一貫して改善していることを示しています。
要約(オリジナル)
The Grapheme-to-Phoneme (G2P) task aims to convert orthographic input into a discrete phonetic representation. G2P conversion is beneficial to various speech processing applications, such as text-to-speech and speech recognition. However, these tend to rely on manually-annotated pronunciation dictionaries, which are often time-consuming and costly to acquire. In this paper, we propose a method to improve the G2P conversion task by learning pronunciation examples from audio recordings. Our approach bootstraps a G2P with a small set of annotated examples. The G2P model is used to train a multilingual phone recognition system, which then decodes speech recordings with a phonetic representation. Given hypothesized phoneme labels, we learn pronunciation dictionaries for out-of-vocabulary words, and we use those to re-train the G2P system. Results indicate that our approach consistently improves the phone error rate of G2P systems across languages and amount of available data.
arxiv情報
著者 | Manuel Sam Ribeiro,Giulia Comini,Jaime Lorenzo-Trueba |
発行日 | 2023-07-31 13:25:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google