要約
Hanyu Pinyinの略語を漢字に変換するタスクは、中国のスペル補正(CSC)の領域内の重要な枝です。
名前付きエンティティ認識やセンチメント分析など、多くの下流アプリケーションで重要な役割を果たしています。
このタスクは通常、テキストの長さのアラインメントを伴い、簡単に解決できるようです。
ただし、Pinyinの略語の情報コンテンツが限られているため、正確な変換を達成することは困難です。
この論文では、これをフィルマスクタスクとして扱い、この問題の解決策としてZh-CN Pinyin Multi-Mask Bertモデルを表すCnmbertを提案します。
マルチマスク戦略と専門家(MOE)層の混合を導入することにより、CNMBERTは、10,373サンプルのテストデータセットで61.53%のMRRスコアと51.86%の精度で、微調整されたGPTモデルとCHATGPT-4Oよりも優れています。
要約(オリジナル)
The task of converting Hanyu Pinyin abbreviations to Chinese characters is a significant branch within the domain of Chinese Spelling Correction (CSC). It plays an important role in many downstream applications such as named entity recognition and sentiment analysis. This task typically involves text-length alignment and seems easy to solve; however, due to the limited information content in pinyin abbreviations, achieving accurate conversion is challenging. In this paper, we treat this as a fill-mask task and propose CNMBERT, which stands for zh-CN Pinyin Multi-mask BERT Model, as a solution to this issue. By introducing a multi-mask strategy and Mixture of Experts (MoE) layers, CNMBERT outperforms fine-tuned GPT models and ChatGPT-4o with a 61.53% MRR score and 51.86% accuracy on a 10,373-sample test dataset.
arxiv情報
著者 | Zishuo Feng,Feng Cao |
発行日 | 2025-01-28 14:54:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google