Improving grapheme-to-phoneme conversion by learning pronunciations from speech recordings

要約

Grapheme-to-Phoneme (G2P) タスクは、正書法入力を離散音声表現に変換することを目的としています。
G2P 変換は、テキスト読み上げや音声認識などのさまざまな音声処理アプリケーションに有益です。
ただし、これらは手動で注釈を付けた発音辞書に依存する傾向があり、取得には時間と費用がかかることがよくあります。
この論文では、音声録音から発音例を学習することにより、G2P 変換タスクを改善する方法を提案します。
私たちのアプローチは、注釈付きのサンプルの小さなセットを使用して G2P をブートストラップします。
G2P モデルは、多言語電話認識システムをトレーニングするために使用され、音声表現を使用して音声録音をデコードします。
仮定された音素ラベルを基に、語彙外の単語の発音辞書を学習し、それを使用して G2P システムを再トレーニングします。
結果は、私たちのアプローチが、言語や利用可能なデータ量を問わず、G2P システムの電話エラー率を一貫して改善していることを示しています。

要約(オリジナル)

The Grapheme-to-Phoneme (G2P) task aims to convert orthographic input into a discrete phonetic representation. G2P conversion is beneficial to various speech processing applications, such as text-to-speech and speech recognition. However, these tend to rely on manually-annotated pronunciation dictionaries, which are often time-consuming and costly to acquire. In this paper, we propose a method to improve the G2P conversion task by learning pronunciation examples from audio recordings. Our approach bootstraps a G2P with a small set of annotated examples. The G2P model is used to train a multilingual phone recognition system, which then decodes speech recordings with a phonetic representation. Given hypothesized phoneme labels, we learn pronunciation dictionaries for out-of-vocabulary words, and we use those to re-train the G2P system. Results indicate that our approach consistently improves the phone error rate of G2P systems across languages and amount of available data.

arxiv情報

著者 Manuel Sam Ribeiro,Giulia Comini,Jaime Lorenzo-Trueba
発行日 2023-07-31 13:25:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク