RSpell: Retrieval-augmented Framework for Domain Adaptive Chinese Spelling Check

要約

中国語スペル チェック (CSC) は、中国語テキストのスペル ミスの検出と修正を指します。
実際のアプリケーションのシナリオでは、CSC モデルにさまざまなドメインにわたるエラーを修正できる機能を持たせることが重要です。
この論文では、対応するドメイン用語を検索して CSC モデルに組み込む、RSpell と呼ばれる検索拡張スペル チェック フレームワークを提案します。
具体的には、ピンイン ファジー マッチングを使用して用語を検索し、入力と組み合わせて CSC モデルに入力します。
次に、適応プロセス制御メカニズムを導入して、モデルに対する外部知識の影響を動的に調整します。
さらに、推論機能を強化するために RSpell フレームワークの反復戦略を開発します。
私たちは、法律、医学、公式文書作成の 3 つの分野で CSC データセットの実験を実施しました。
結果は、RSpell がゼロショット シナリオと微調整シナリオの両方で最先端のパフォーマンスを達成していることを示し、検索強化 CSC フレームワークの有効性を示しています。
私たちのコードは https://github.com/47777777/Rspell で入手できます。

要約(オリジナル)

Chinese Spelling Check (CSC) refers to the detection and correction of spelling errors in Chinese texts. In practical application scenarios, it is important to make CSC models have the ability to correct errors across different domains. In this paper, we propose a retrieval-augmented spelling check framework called RSpell, which searches corresponding domain terms and incorporates them into CSC models. Specifically, we employ pinyin fuzzy matching to search for terms, which are combined with the input and fed into the CSC model. Then, we introduce an adaptive process control mechanism to dynamically adjust the impact of external knowledge on the model. Additionally, we develop an iterative strategy for the RSpell framework to enhance reasoning capabilities. We conducted experiments on CSC datasets in three domains: law, medicine, and official document writing. The results demonstrate that RSpell achieves state-of-the-art performance in both zero-shot and fine-tuning scenarios, demonstrating the effectiveness of the retrieval-augmented CSC framework. Our code is available at https://github.com/47777777/Rspell.

arxiv情報

著者 Siqi Song,Qi Lv,Lei Geng,Ziqiang Cao,Guohong Fu
発行日 2023-08-16 07:12:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク