Polyphone Disambiguation in Mandarin Chinese with Semi-Supervised Learning

要約

中国語の文字の大部分は単音文字ですが、多音文字と呼ばれる特殊な文字グループには複数の発音があります。
音声関連の生成タスクを実行する前提条件として、複数の候補の中から正しい発音を特定する必要があります。
このプロセスは、ポリフォンの曖昧さ回避と呼ばれます。
この問題は知識ベースと学習ベースの両方のアプローチで十分に調査されてきましたが、公的に利用可能なラベル付きデータセットの欠如と北京語のポリフォンの不規則な性質により、依然として困難なままです。
この論文では、無制限のラベルなしテキスト データを潜在的に活用できる、北京語ポリフォン曖昧性解消のための新しい半教師あり学習 (SSL) フレームワークを提案します。
エントロピーしきい値や語彙ベースのラベル付けなど、さまざまな代理ラベル付け戦略の効果を調査します。
定性的および定量的実験により、私たちの方法が最先端のパフォーマンスを達成することが実証されました。
さらに、さらなる研究を促進するために、ポリフォン曖昧性除去タスクに特化した新しいデータセットを公開します。

要約(オリジナル)

The majority of Chinese characters are monophonic, while a special group of characters, called polyphonic characters, have multiple pronunciations. As a prerequisite of performing speech-related generative tasks, the correct pronunciation must be identified among several candidates. This process is called Polyphone Disambiguation. Although the problem has been well explored with both knowledge-based and learning-based approaches, it remains challenging due to the lack of publicly available labeled datasets and the irregular nature of polyphone in Mandarin Chinese. In this paper, we propose a novel semi-supervised learning (SSL) framework for Mandarin Chinese polyphone disambiguation that can potentially leverage unlimited unlabeled text data. We explore the effect of various proxy labeling strategies including entropy-thresholding and lexicon-based labeling. Qualitative and quantitative experiments demonstrate that our method achieves state-of-the-art performance. In addition, we publish a novel dataset specifically for the polyphone disambiguation task to promote further research.

arxiv情報

著者 Yi Shi,Congyi Wang,Yu Chen,Bin Wang
発行日 2024-08-15 06:51:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク