CNMBert: A Model For Hanyu Pinyin Abbreviation to Character Conversion Task

要約

Hanyu Pinyin の略語を漢字に変換するタスクは、中国語スペル修正 (CSC) の領域内の重要な分野に相当します。
このタスクは通常、テキストの長さの調整の 1 つですが、ピンイン略語の情報内容が限られているため、正確な変換を達成するのは困難です。
この論文では、この問題の解決策として zh-CN Pinyin Multi-mask Bert Model の略である CNMBert を提案します。
CNMBert は、少数ショット GPT モデルを上回り、10,424 サンプルの羽生ピンイン略語テスト データセットで 59.63% の MRR を達成しました。

要約(オリジナル)

The task of converting Hanyu Pinyin abbreviations to Chinese characters represents a significant branch within the domain of Chinese Spelling Correction (CSC). This task is typically one of text-length alignment, however, due to the limited informational content in pinyin abbreviations, achieving accurate conversion is challenging. In this paper, we propose CNMBert which stands for zh-CN Pinyin Multi-mask Bert Model as a solution to this issue. CNMBert surpasses few-shot GPT models, achieving a 59.63% MRR on a 10,424-sample Hanyu Pinyin abbreviation test dataset.

arxiv情報

著者 Zishuo Feng,Feng Cao
発行日 2024-11-18 17:50:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク