Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters in Hadith Domain

要約

アラビア語には複雑で豊かな形態学的特徴が数多くあり、これらは伝統的なアラビア語の教科書、特に文学や宗教の文脈を分析する際に非常に役立ち、教科書の意味を理解するのに役立ちます。
語彙の分離とは、単語を語根や接辞などのさまざまな構成要素に分離することを意味します。
形態学的データセットでは、さまざまなマーカーとデータ サンプルの数が形態学的手法の評価に役立ちます。
この論文では、アラビア語セグメンテーション ツールを分析するための標準データセットを紹介します。このデータセットには、人間の専門家によってラベル付けされた「イスラム教のイスラム法」の約 223,690 語が含まれています。
量と単語の多様性の点で、このデータセットは、私たちの知る限り、他のハディース アラビア語データセットよりも優れています。
データセットを推定するために、Farasa、Camel、ALP などのさまざまな方法を適用し、アノテーションの品質を報告し、ベンチマーク仕様も分析しました。
これは

要約(オリジナル)

There are numerous complex and rich morphological features in the Arabic language, which are highly useful when analyzing traditional Arabic textbooks, especially in the literary and religious contexts, and help in understanding the meaning of the textbooks. Vocabulary separation means separating the word into different components, such as the root and affixes. In the morphological datasets, the variety of markers and the number of data samples help to evaluate the morphological techniques. In this paper, we present a standard dataset for analyzing the Arabic segmentation tools, which includes approximately 223,690 words from the ‘Shariat al-Islam’ book, labeled by human experts. In terms of volume and word variety, this dataset is superior to the other Hadith Arabic datasets, to the best of our knowledge. To estimate the dataset, we applied different methods, including Farasa, Camel, and ALP, and reported the annotation quality and analyzed the benchmark specifications as well. This be

arxiv情報

著者 Huda AlShuhayeb,Behrouz Minaei-Bidgoli,Mohammad E. Shenassa,Sayyed-Ali Hossayni
発行日 2025-01-23 14:20:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク