要約
Hanyu Pinyin の略語を漢字に変換するタスクは、中国語スペル修正 (CSC) の領域内の重要な分野に相当します。
このタスクは通常、テキストの長さの調整の 1 つですが、ピンイン略語の情報内容が限られているため、正確な変換を達成するのは困難です。
この論文では、この問題の解決策として zh-CN Pinyin Multi-mask Bert Model の略である CNMBert を提案します。
CNMBert は、少数ショット GPT モデルを上回り、10,424 サンプルの羽生ピンイン略語テスト データセットで 59.63% の MRR を達成しました。
要約(オリジナル)
The task of converting Hanyu Pinyin abbreviations to Chinese characters represents a significant branch within the domain of Chinese Spelling Correction (CSC). This task is typically one of text-length alignment, however, due to the limited informational content in pinyin abbreviations, achieving accurate conversion is challenging. In this paper, we propose CNMBert which stands for zh-CN Pinyin Multi-mask Bert Model as a solution to this issue. CNMBert surpasses few-shot GPT models, achieving a 59.63% MRR on a 10,424-sample Hanyu Pinyin abbreviation test dataset.
arxiv情報
著者 | Zishuo Feng,Feng Cao |
発行日 | 2024-11-18 17:50:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google