Guidelines for Fine-grained Sentence-level Arabic Readability Annotation

要約

この論文では、アラビア語での微細に粒の文レベルの読みやすさの評価のための大規模なリソースであるバランスのとれたアラビア語の読みやすさ評価コーパス(Barec)の注釈ガイドラインを紹介します。
Barecには、幼稚園から大学院まで、19レベルにわたってラベル付けされた69,441文(1m以上の単語)が含まれています。
Taha/Arabi21フレームワークに基づいて、ガイドラインは、アラビア語を話す先住民の教育者との反復トレーニングを通じて洗練されました。
読みやすさを決定する際の重要な言語、教育学的、および認知的要因を強調し、高アノテーター間契約を報告します。
また、複数の分類粒度(19、7、5、および3レベル)にわたって自動読み取り可能性モデルをベンチマークします。
コーパスとガイドラインは公開されています。

要約(オリジナル)

This paper presents the annotation guidelines of the Balanced Arabic Readability Evaluation Corpus (BAREC), a large-scale resource for fine-grained sentence-level readability assessment in Arabic. BAREC includes 69,441 sentences (1M+ words) labeled across 19 levels, from kindergarten to postgraduate. Based on the Taha/Arabi21 framework, the guidelines were refined through iterative training with native Arabic-speaking educators. We highlight key linguistic, pedagogical, and cognitive factors in determining readability and report high inter-annotator agreement: Quadratic Weighted Kappa 81.8% (substantial/excellent agreement) in the last annotation phase. We also benchmark automatic readability models across multiple classification granularities (19-, 7-, 5-, and 3-level). The corpus and guidelines are publicly available.

arxiv情報

著者 Nizar Habash,Hanada Taha-Thomure,Khalid N. Elmadani,Zeina Zeino,Abdallah Abushmaes
発行日 2025-06-11 13:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク