Progressive Multi-task Learning Framework for Chinese Text Error Correction

要約

中国語テキスト誤り訂正(CTEC)は、入力テキストの誤りを検出し訂正することを目的としており、人間の日常生活や様々な下流タスクに有益である。最近のアプローチは、CTECタスクを解決するために、主に事前訓練された言語モデル(PLM)を採用し、大きな成功を収めています。しかし、これまでのアプローチは、過修正と過少修正の問題に悩まされており、前者は特に精度が重要なCTECタスクにおいて顕著である。過補正の問題を緩和するために、我々はCTECのための新しいモデル非依存的漸進的マルチタスク学習フレームワークを提案する。CTECタスクを、簡単なものから難しいものまで3つのサブタスクに分割する:エラー検出、エラータイプ識別、修正結果生成である。学習プロセスにおいて、ProTECはこれらのサブタスクをマルチタスク学習目的に組み込むことで、テキスト誤り訂正を段階的に学習するようモデルを導く。推論プロセスにおいて、モデルはこれらのサブタスクを順番に完了させ、訂正結果を生成する。広範な実験と詳細な分析により、提案するフレームワークの有効性と効率性が完全に実証された。

要約(オリジナル)

Chinese Text Error Correction (CTEC) aims to detect and correct errors in the input text, which benefits human’s daily life and various downstream tasks. Recent approaches mainly employ Pre-trained Language Models (PLMs) to resolve CTEC task and achieve tremendous success. However, previous approaches suffer from issues of over-correction and under-correction, and the former is especially conspicuous in the precision-critical CTEC task. To mitigate the issue of overcorrection, we propose a novel model-agnostic progressive multitask learning framework for CTEC, named ProTEC, which guides a CTEC model to learn the task from easy to difficult. We divide CTEC task into three sub-tasks from easy to difficult: Error Detection, Error Type Identification, and Correction Result Generation. During the training process, ProTEC guides the model to learn text error correction progressively by incorporating these sub-tasks into a multi-task training objective. During the inference process, the model completes these sub-tasks in turn to generate the correction results. Extensive experiments and detailed analyses fully demonstrate the effectiveness and efficiency of our proposed framework.

arxiv情報

著者 Shirong Ma,Yinghui Li,Haojing Huang,Shulin Huang,Yangning Li,Hai-Tao Zheng,Ying Shen
発行日 2023-07-03 05:29:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク