Block the Label and Noise: An N-Gram Masked Speller for Chinese Spell Checking

要約

タイトル:中国語のスペルチェックに対するN-Gramマスクスペラー:ラベルとノイズのブロック

要約:
– 中国語のスペルチェック(CSC)は、誤った文字を検出し修正するタスクであるため、さまざまなNLPタスクに適用されます。
– 既存の多くの方法は、CSCタスクのためにBERTを使用して意味情報を抽出しています。
– 情報が少なくない文章を直接入力として取り扱うため、正しい文字をモデルに漏れさせ、遠い文脈をキャプチャする能力を減衰させる一方で、意味符号化プロセスを妨げ、表現が悪化する可能性があるという問題があります。
– この観察に基づき、現在と/または周囲のトークンをマスクするn-gramマスキングレイヤーを提案して、ラベル漏れやエラーの混乱を防ぎます。
– また、マスク戦略がエラーによって示される多様な情報を無視する可能性があるため、音韻学的および形態論学的情報を意味表現と統合するための新しいドット積ゲーティングメカニズムが提案されました。
– SIGHANデータセットでの詳細な実験により、プラグイン可能なn-gramマスキングメカニズムが浸透したCSCモデルのパフォーマンスを改善できることが示され、本論文で提案された手法は、複数の強力な最新のモデルを上回る性能を発揮しています。

要約(オリジナル)

Recently, Chinese Spell Checking(CSC), a task to detect erroneous characters in a sentence and correct them, has attracted extensive interest because of its wide applications in various NLP tasks. Most of the existing methods have utilized BERT to extract semantic information for CSC task. However, these methods directly take sentences with only a few errors as inputs, where the correct characters may leak answers to the model and dampen its ability to capture distant context; while the erroneous characters may disturb the semantic encoding process and result in poor representations. Based on such observations, this paper proposes an n-gram masking layer that masks current and/or surrounding tokens to avoid label leakage and error disturbance. Moreover, considering that the mask strategy may ignore multi-modal information indicated by errors, a novel dot-product gating mechanism is proposed to integrate the phonological and morphological information with semantic representation. Extensive experiments on SIGHAN datasets have demonstrated that the pluggable n-gram masking mechanism can improve the performance of prevalent CSC models and the proposed methods in this paper outperform multiple powerful state-of-the-art models.

arxiv情報

著者 Haiyun Yang
発行日 2023-05-05 06:43:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク