要約
自然言語処理 (NLP) は、サンプル サイズの制約を克服するためにテキスト データの拡張を利用します。
サンプル サイズを増やすことは、これらの課題を軽減するための自然な戦略であり、広く使用されています。
この研究では、サンプルサイズを増やし、文法上の誤りを修正するためにアラビア語を選択しました。
アラビア語は、文法誤り訂正 (GEC) のリソースが限られている言語の 1 つと考えられています。
さらに、QALB-14 と QALB-15 は、ほとんどのアラビア語文法誤り訂正研究で使用される唯一のデータセットであり、約 20,500 の並列例があり、他の言語に比べて少ないと考えられています。
そこで本研究では、ChatGPTを用いた文法誤り訂正用のアラビア語コーパス「Tibyan」を開発することを目的としている。
ChatGPT は、ガイド文と呼ばれる、文法上の誤りを含むアラビア語の文とアラビア語の書籍から抽出された誤りのない文を照合したペアに基づくデータ拡張ツールとして使用されます。
コーパスの構築には、書籍やオープンアクセスのコーパスなど、さまざまな情報源からの 2 組のアラビア語テキストの収集と前処理など、複数の手順が必要でした。
次に、ChatGPT を使用して、複数の種類のエラーを含む文を生成するためのガイドとして、以前に収集したテキストに基づいて対訳コーパスを生成しました。
言語専門家に自動生成された文のレビューと検証を依頼することで、それらが正確で間違いがないことを確認しました。
コーパスは、言語専門家から提供されたフィードバックに基づいて繰り返し検証および改良され、精度が向上しました。
最後に、アラビア語エラー タイプ アノテーション ツール (ARETA) を使用して、ティビヤ コーパス内のエラーのタイプを分析しました。
私たちのコーパスには、正書法、形態論、構文、意味論、句読点、結合、分割の 7 つのタイプを含む 49 個のエラーが含まれていました。
ティビアン コーパスには、約 600,000 個のトークンが含まれています。
要約(オリジナル)
Natural language processing (NLP) utilizes text data augmentation to overcome sample size constraints. Increasing the sample size is a natural and widely used strategy for alleviating these challenges. In this study, we chose Arabic to increase the sample size and correct grammatical errors. Arabic is considered one of the languages with limited resources for grammatical error correction (GEC). Furthermore, QALB-14 and QALB-15 are the only datasets used in most Arabic grammatical error correction research, with approximately 20,500 parallel examples, which is considered low compared with other languages. Therefore, this study aims to develop an Arabic corpus called ‘Tibyan’ for grammatical error correction using ChatGPT. ChatGPT is used as a data augmenter tool based on a pair of Arabic sentences containing grammatical errors matched with a sentence free of errors extracted from Arabic books, called guide sentences. Multiple steps were involved in establishing our corpus, including the collection and pre-processing of a pair of Arabic texts from various sources, such as books and open-access corpora. We then used ChatGPT to generate a parallel corpus based on the text collected previously, as a guide for generating sentences with multiple types of errors. By engaging linguistic experts to review and validate the automatically generated sentences, we ensured that they were correct and error-free. The corpus was validated and refined iteratively based on feedback provided by linguistic experts to improve its accuracy. Finally, we used the Arabic Error Type Annotation tool (ARETA) to analyze the types of errors in the Tibyan corpus. Our corpus contained 49 of errors, including seven types: orthography, morphology, syntax, semantics, punctuation, merge, and split. The Tibyan corpus contains approximately 600 K tokens.
arxiv情報
著者 | Ahlam Alrehili,Areej Alhothali |
発行日 | 2024-11-07 10:17:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google