An Error-Guided Correction Model for Chinese Spelling Error Correction

要約

既存のニューラル ネットワーク アプローチは中国語のスペル修正で大きな成功を収めていますが、まだ改善の余地があります。
モデルは、過度の修正を回避し、正しいトークンを音韻的および視覚的に類似したトークンと区別する必要があります。
本稿では、中国語のスペル修正を改善するための誤り誘導修正モデル (EGCM) を提案します。
BERT の強力な機能を借りて、予備的な検出を行うための新しいゼロ ショット エラー検出方法を提案します。これにより、モデルがエンコード時におそらく間違ったトークンに注意を払い、生成時に正しいトークンを変更することを回避できます。
さらに、エラー混同セットを統合するための新しい損失関数を導入します。これにより、モデルが誤用されやすいトークンを区別できるようになります。
さらに、私たちのモデルは、実際のアプリケーションの要件を満たすために高度な並列デコードをサポートしています。
広く使用されているベンチマークで実験が行われます。
私たちのモデルは、修正品質と計算速度の両方で、最先端のアプローチに対して優れたパフォーマンスを達成しています。

要約(オリジナル)

Although existing neural network approaches have achieved great success on Chinese spelling correction, there is still room to improve. The model is required to avoid over-correction and to distinguish a correct token from its phonological and visually similar ones. In this paper, we propose an error-guided correction model (EGCM) to improve Chinese spelling correction. By borrowing the powerful ability of BERT, we propose a novel zero-shot error detection method to do a preliminary detection, which guides our model to attend more on the probably wrong tokens in encoding and to avoid modifying the correct tokens in generating. Furthermore, we introduce a new loss function to integrate the error confusion set, which enables our model to distinguish easily misused tokens. Moreover, our model supports highly parallel decoding to meet real application requirements. Experiments are conducted on widely used benchmarks. Our model achieves superior performance against state-of-the-art approaches by a remarkable margin, on both the correction quality and computation speed.

arxiv情報

著者 Rui Sun,Xiuyu Wu,Yunfang Wu
発行日 2023-03-20 08:37:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク