Good Neighbors Are All You Need for Chinese Grapheme-to-Phoneme Conversion

要約

ほとんどの中国語の書記素から音素 (G2P) システムは、最初に入力シーケンスを文字埋め込みに変換し、言語モデルを使用して言語情報を取得し、次に入力シーケンス全体に関するグローバル コンテキストに基づいて音素を予測する 3 段階のフレームワークを採用しています。
しかし、言語の知識だけでは不十分なことがよくあります。
言語モデルは、文の過度に一般的な構造をエンコードすることが多く、音声知識を使用するために必要な特定のケースをカバーできません。
また、文字のトーンに関連する問題に対処するために、手作りの後処理システムが必要です。
しかし、このシステムは、単語境界のセグメンテーションに一貫性がないため、G2P システムのパフォーマンスが低下します。
これらの問題に対処するために、隣接する文字間の音韻情報を強調して発音を明確にすることにより、言語モデルに強い誘導バイアスを提供する Reinforcer を提案します。
実験結果は、Reinforcer が最先端のアーキテクチャを大幅に後押しすることを示しています。
また、Reinforcer を大規模な事前トレーニング済みモデルと組み合わせて、知識伝達シナリオで隣接コンテキストを使用することの有効性を示します。

要約(オリジナル)

Most Chinese Grapheme-to-Phoneme (G2P) systems employ a three-stage framework that first transforms input sequences into character embeddings, obtains linguistic information using language models, and then predicts the phonemes based on global context about the entire input sequence. However, linguistic knowledge alone is often inadequate. Language models frequently encode overly general structures of a sentence and fail to cover specific cases needed to use phonetic knowledge. Also, a handcrafted post-processing system is needed to address the problems relevant to the tone of the characters. However, the system exhibits inconsistency in the segmentation of word boundaries which consequently degrades the performance of the G2P system. To address these issues, we propose the Reinforcer that provides strong inductive bias for language models by emphasizing the phonological information between neighboring characters to help disambiguate pronunciations. Experimental results show that the Reinforcer boosts the cutting-edge architectures by a large margin. We also combine the Reinforcer with a large-scale pre-trained model and demonstrate the validity of using neighboring context in knowledge transfer scenarios.

arxiv情報

著者 Jungjun Kim,Changjin Han,Gyuhyeon Nam,Gyeongsu Chae
発行日 2023-03-14 09:15:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク