Correct Like Humans: Progressive Learning Framework for Chinese Text Error Correction

要約

Chinese Text Error Correction (CTEC) は、入力テキスト内のエラーを検出して修正することを目的としており、人間の日常生活やさまざまな下流タスクに利益をもたらします。
最近のアプローチでは、主に事前トレーニング済み言語モデル (PLM) を使用して CTEC を解決しています。
PLM は CTEC において目覚ましい成功を収めていますが、これまでの研究では依然として人間の思考パターンの重要性が見落とされていると私たちは主張します。
人間の日常的なエラー修正行動から着想を得た、CTEC 用 PLM の開発を強化するために、PLM ベースの CTEC モデルが人間と同じように修正することを学習できるように導く、ProTEC と呼ばれる新しいモデルに依存しない漸進的学習フレームワークを提案します。
トレーニング プロセス中、ProTEC は、これらのサブタスクを漸進的なパラダイムに組み込むことで、モデルがテキスト エラー修正を学習できるようにガイドします。
推論プロセス中に、モデルはこれらのサブタスクを順番に完了して、補正結果を生成します。
広範な実験と詳細な分析により、私たちが提案するモデルに依存しない ProTEC フレームワークの有効性と効率性が実証されています。

要約(オリジナル)

Chinese Text Error Correction (CTEC) aims to detect and correct errors in the input text, which benefits human daily life and various downstream tasks. Recent approaches mainly employ Pre-trained Language Models (PLMs) to resolve CTEC. Although PLMs have achieved remarkable success in CTEC, we argue that previous studies still overlook the importance of human thinking patterns. To enhance the development of PLMs for CTEC, inspired by humans’ daily error-correcting behavior, we propose a novel model-agnostic progressive learning framework, named ProTEC, which guides PLMs-based CTEC models to learn to correct like humans. During the training process, ProTEC guides the model to learn text error correction by incorporating these sub-tasks into a progressive paradigm. During the inference process, the model completes these sub-tasks in turn to generate the correction results. Extensive experiments and detailed analyses demonstrate the effectiveness and efficiency of our proposed model-agnostic ProTEC framework.

arxiv情報

著者 Yinghui Li,Shirong Ma,Shaoshen Chen,Haojing Huang,Shulin Huang,Yangning Li,Hai-Tao Zheng,Ying Shen
発行日 2024-03-20 15:53:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク