要約
中国語テキスト誤り訂正(CTEC)は、入力テキストの誤りを検出し訂正することを目的としており、人間の日常生活や様々な下流タスクに有益である。最近のアプローチは、CTECタスクを解決するために、主に事前訓練された言語モデル(PLM)を採用し、大きな成功を収めています。しかし、これまでのアプローチは、過修正と過少修正の問題に悩まされており、前者は特に精度が重要なCTECタスクにおいて顕著である。過補正の問題を緩和するために、我々はCTECのための新しいモデル非依存的漸進的マルチタスク学習フレームワークを提案する。CTECタスクを、簡単なものから難しいものまで3つのサブタスクに分割する:エラー検出、エラータイプ識別、修正結果生成である。学習プロセスにおいて、ProTECはこれらのサブタスクをマルチタスク学習目的に組み込むことで、テキスト誤り訂正を段階的に学習するようモデルを導く。推論プロセスにおいて、モデルはこれらのサブタスクを順番に完了させ、訂正結果を生成する。広範な実験と詳細な分析により、提案するフレームワークの有効性と効率性が完全に実証された。
要約(オリジナル)
Chinese Text Error Correction (CTEC) aims to detect and correct errors in the input text, which benefits human’s daily life and various downstream tasks. Recent approaches mainly employ Pre-trained Language Models (PLMs) to resolve CTEC task and achieve tremendous success. However, previous approaches suffer from issues of over-correction and under-correction, and the former is especially conspicuous in the precision-critical CTEC task. To mitigate the issue of overcorrection, we propose a novel model-agnostic progressive multitask learning framework for CTEC, named ProTEC, which guides a CTEC model to learn the task from easy to difficult. We divide CTEC task into three sub-tasks from easy to difficult: Error Detection, Error Type Identification, and Correction Result Generation. During the training process, ProTEC guides the model to learn text error correction progressively by incorporating these sub-tasks into a multi-task training objective. During the inference process, the model completes these sub-tasks in turn to generate the correction results. Extensive experiments and detailed analyses fully demonstrate the effectiveness and efficiency of our proposed framework.
arxiv情報
著者 | Shirong Ma,Yinghui Li,Haojing Huang,Shulin Huang,Yangning Li,Hai-Tao Zheng,Ying Shen |
発行日 | 2023-07-03 05:29:59+00:00 |
arxivサイト | arxiv_id(pdf) |