CEC-Zero: Chinese Error Correction Solution Based on LLM

要約

大規模な言語モデル(LLMS)の最近の進歩は、特に中国の綴り補正(CSC)において、例外的な中国のテキスト処理能力を示しています。
LLMSは、正確さと堅牢性の従来のBertベースのモデルよりも優れていますが、信頼性と一般化に課題が持続します。
このペーパーでは、外部の監督なしで自律的なエラー戦略学習を通じてLLMが自己修正できるようにする新しい強化学習(RL)フレームワークであるCEC-Zeroを提案します。
RLとLLMSの生成力を統合することにより、この方法は注釈付きデータまたは補助モデルへの依存性を排除します。
実験により、RLが強化したLLMは、業界での実行可能な精度と優れたクロスドメインの一般化を達成し、中国のNLPアプリケーションでの信頼性の最適化のためのスケーラブルなソリューションを提供します。
このブレークスルーは、自己改善言語モデルの新しいパラダイムを確立しながら、実際の中国のテキスト修正シナリオでのLLM展開を促進します。

要約(オリジナル)

Recent advancements in large language models (LLMs) demonstrate exceptional Chinese text processing capabilities, particularly in Chinese Spelling Correction (CSC). While LLMs outperform traditional BERT-based models in accuracy and robustness, challenges persist in reliability and generalization. This paper proposes CEC-Zero, a novel reinforcement learning (RL) framework enabling LLMs to self-correct through autonomous error strategy learning without external supervision. By integrating RL with LLMs’ generative power, the method eliminates dependency on annotated data or auxiliary models. Experiments reveal RL-enhanced LLMs achieve industry-viable accuracy and superior cross-domain generalization, offering a scalable solution for reliability optimization in Chinese NLP applications. This breakthrough facilitates LLM deployment in practical Chinese text correction scenarios while establishing a new paradigm for self-improving language models.

arxiv情報

著者 Sophie Zhang,Zhiming Lin
発行日 2025-05-14 02:35:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク