Advancements in Arabic Grammatical Error Detection and Correction: An Empirical Investigation

要約

文法的誤り訂正 (GEC) は、多くの既存のモデルやデータセットを使用して英語でよく研究されている問題です。
しかし、形態素豊かな言語における GEC の研究は、データ不足や言語の複雑さなどの課題により限られています。
この論文では、新しく開発された 2 つの Transformer ベースの事前トレーニング済みシーケンスツーシーケンス モデルを使用した、アラビア語 GEC に関する最初の結果を紹介します。
また、マルチクラス アラビア語文法エラー検出 (GED) のタスクを定義し、マルチクラス アラビア語 GED に関する最初の結果を提示します。
GED 情報を GEC モデルの補助入力として使用すると、異なるジャンルにまたがる 3 つのデータセットにわたって GEC パフォーマンスが向上することを示します。
さらに、GEC システムを支援する際のコンテキスト形態学的前処理の使用についても調査します。
私たちのモデルは、2 つのアラビア語 GEC 共有タスク データセットで SOTA 結果を達成し、最近作成されたデータセットで強力なベンチマークを確立します。
私たちはコード、データ、事前トレーニング済みモデルを公開しています。

要約(オリジナル)

Grammatical error correction (GEC) is a well-explored problem in English with many existing models and datasets. However, research on GEC in morphologically rich languages has been limited due to challenges such as data scarcity and language complexity. In this paper, we present the first results on Arabic GEC using two newly developed Transformer-based pretrained sequence-to-sequence models. We also define the task of multi-class Arabic grammatical error detection (GED) and present the first results on multi-class Arabic GED. We show that using GED information as an auxiliary input in GEC models improves GEC performance across three datasets spanning different genres. Moreover, we also investigate the use of contextual morphological preprocessing in aiding GEC systems. Our models achieve SOTA results on two Arabic GEC shared task datasets and establish a strong benchmark on a recently created dataset. We make our code, data, and pretrained models publicly available.

arxiv情報

著者 Bashar Alhafni,Go Inoue,Christian Khairallah,Nizar Habash
発行日 2023-11-09 16:10:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク