要約
中国語のスペル修正 (CSC) は、基本的な自然言語処理 (NLP) タスクとして機能し、主に中国語テキスト内の誤った文字の修正に焦点を当てています。
特定の既存の方法論では、エラー位置を特定するために追加のエラー検出器を使用して、エラー訂正プロセスを解きほぐすことを選択しています。
ただし、エラー検出器の固有のパフォーマンス制限により、精度と再現率はコインの裏表のようなものであり、両方を同時に表にすることはできません。
さらに、エラー位置情報を適切に適用してエラー訂正を支援する方法を検討することも価値があります。
この論文では、誤り検出器と修正器のフレームワークに基づいた新しいアプローチを紹介します。
当社の検出器は 2 つのエラー検出結果が得られるように設計されており、それぞれの特徴は高精度と再現率です。
エラーの発生はコンテキストに依存し、検出結果の精度が低くなる可能性があることを考慮して、革新的な機能融合戦略と選択的マスキング戦略を使用して、エラー検出結果を CSC タスクに組み込みます。
主流の CSC データセットに対して行われた実証実験により、私たちが提案した方法の有効性が実証されました。
要約(オリジナル)
Chinese Spelling Correction (CSC) stands as a foundational Natural Language Processing (NLP) task, which primarily focuses on the correction of erroneous characters in Chinese texts. Certain existing methodologies opt to disentangle the error correction process, employing an additional error detector to pinpoint error positions. However, owing to the inherent performance limitations of error detector, precision and recall are like two sides of the coin which can not be both facing up simultaneously. Furthermore, it is also worth investigating how the error position information can be judiciously applied to assist the error correction. In this paper, we introduce a novel approach based on error detector-corrector framework. Our detector is designed to yield two error detection results, each characterized by high precision and recall. Given that the occurrence of errors is context-dependent and detection outcomes may be less precise, we incorporate the error detection results into the CSC task using an innovative feature fusion strategy and a selective masking strategy. Empirical experiments conducted on mainstream CSC datasets substantiate the efficacy of our proposed method.
arxiv情報
| 著者 | Xiangke Zeng,Zuchao Li,Lefei Zhang,Ping Wang,Hongqiu Wu,Hai Zhao |
| 発行日 | 2024-09-06 09:26:45+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google