CNMBert: A Model for Hanyu Pinyin Abbreviation to Character Conversion Task

要約

漢語ピンインの略語を漢字に変換するタスクは、中国語スペル修正 (CSC) の分野内の重要な分野です。
これは、固有表現認識や感情分析など、多くの下流アプリケーションで重要な役割を果たします。
このタスクは通常、テキストの長さの調整の 1 つであり、解決するのは簡単だと思われます。
ただし、ピンイン略語の情報内容は限られているため、正確な変換を達成するのは困難です。
この論文では、これを Fill-Mask タスクとして扱い、この問題の解決策として zh-CN Pinyin Multi-mask Bert Model の略である CNMBert を提案します。
マルチマスク戦略と専門家混合 (MoE) レイヤーを導入することにより、CNMBert は、10,373 サンプルのテスト データセットで 61.53 の MRR スコアと 51.86 の精度で、微調整された GPT モデルと ChatGPT-4o を上回るパフォーマンスを発揮します。

要約(オリジナル)

The task of converting hanyu pinyin abbreviations to Chinese characters is a significant branch within the domain of Chinese Spelling Correction (CSC). It plays an important role in many downstream applications like named entity recognition and sentiment analysis. This task is typically one of text-length alignment and seems easy to solve; however, due to the limited information content in pinyin abbreviations, achieving accurate conversion is challenging. In this paper, we treat this as a Fill-Mask task then propose CNMBert, which stands for zh-CN Pinyin Multi-mask Bert Model, as a solution to this issue. By introducing a multi-mask strategy and Mixture-of-Experts (MoE) layers, CNMBert outperforms fine-tuned GPT models and ChatGPT-4o with a 61.53 MRR score and 51.86 accuracy on a 10,373-sample test dataset.

arxiv情報

著者 Zishuo Feng,Feng Cao
発行日 2025-01-06 10:52:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク