Enhancing Arabic Automated Essay Scoring with Synthetic Data and Error Injection

要約

自動エッセイスコアリング(AES)は、言語学習者の執筆品質を評価し、ワークロードを削減し、リアルタイムのフィードバックを提供する上で重要な役割を果たします。
注釈付きのエッセイデータセットの欠如は、アラビアAESシステムの開発を阻害します。
このペーパーでは、大規模な言語モデル(LLMS)とトランスモデルを活用して、AEの合成アラビア語のエッセイを生成します。
LLMに、共通の欧州参照フレームワーク(CEFR)の習熟度レベル全体にエッセイを生成し、2つのアプローチを導入してエラーインジェクションに比較するように促します。
2つの方法を使用してエラーが注入された3,040の注釈付きエッセイのデータセットを作成します。
さらに、CEFRレベルに校正されたBertベースのアラビアAESシステムを開発します。
実験結果は、アラビア語のAESパフォーマンスの向上における合成データセットの有効性を示しています。
コードとデータを公開しています。

要約(オリジナル)

Automated Essay Scoring (AES) plays a crucial role in assessing language learners’ writing quality, reducing grading workload, and providing real-time feedback. The lack of annotated essay datasets inhibits the development of Arabic AES systems. This paper leverages Large Language Models (LLMs) and Transformer models to generate synthetic Arabic essays for AES. We prompt an LLM to generate essays across the Common European Framework of Reference (CEFR) proficiency levels and introduce and compare two approaches to error injection. We create a dataset of 3,040 annotated essays with errors injected using our two methods. Additionally, we develop a BERT-based Arabic AES system calibrated to CEFR levels. Our experimental results demonstrate the effectiveness of our synthetic dataset in improving Arabic AES performance. We make our code and data publicly available.

arxiv情報

著者 Chatrine Qwaider,Bashar Alhafni,Kirill Chirkunov,Nizar Habash,Ted Briscoe
発行日 2025-06-10 15:32:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク