SALMA: Arabic Sense-Annotated Corpus and WSD Benchmarks

要約

SALMA は、初のアラビア語の語義注釈付きコーパスであり、すべて語義注釈が付けられた約 34,000 個のトークンで構成されています。
コーパスには、2 つの異なる感覚インベントリ (現代語とガーニ語) を同時に使用して注釈が付けられます。
SALMA の新規性は、トークンと感覚がどのように関連付けられるかにあります。
SALMA は、トークンを 1 つの意図された意味だけにリンクするのではなく、トークンを複数の意味にリンクし、それぞれの意味にスコアを提供します。
特定の単語に対する複数の意味のスコアリングをサポートする、スマートな Web ベースの注釈ツールが開発されました。
感覚の注釈に加えて、6 種類の固有表現を使用してコーパスにも注釈を付けました。
アノテーションの品質は、さまざまな指標 (カッパ、線形加重カッパ、二次加重カッパ、平均平均誤差、二乗平均平方根誤差) を使用して評価されました。これらの指標は、アノテーター間の非常に高い一致を示しています。
SALMA コーパスを使用して語感曖昧さ回避ベースラインを確立するために、ターゲットセンス検証を使用したエンドツーエンドの語感曖昧さ回避システムを開発しました。
このシステムを使用して、文献で入手可能な 3 つのターゲット センス検証モデルを評価しました。
私たちの最高のモデルは、Modern を使用した場合 84.2%、Ghani を使用した場合 78.7% の精度を達成しました。
完全なコーパスと注釈ツールはオープンソースであり、https://sina.birzeit.edu/salma/ で公開されています。

要約(オリジナル)

SALMA, the first Arabic sense-annotated corpus, consists of ~34K tokens, which are all sense-annotated. The corpus is annotated using two different sense inventories simultaneously (Modern and Ghani). SALMA novelty lies in how tokens and senses are associated. Instead of linking a token to only one intended sense, SALMA links a token to multiple senses and provides a score to each sense. A smart web-based annotation tool was developed to support scoring multiple senses against a given word. In addition to sense annotations, we also annotated the corpus using six types of named entities. The quality of our annotations was assessed using various metrics (Kappa, Linear Weighted Kappa, Quadratic Weighted Kappa, Mean Average Error, and Root Mean Square Error), which show very high inter-annotator agreement. To establish a Word Sense Disambiguation baseline using our SALMA corpus, we developed an end-to-end Word Sense Disambiguation system using Target Sense Verification. We used this system to evaluate three Target Sense Verification models available in the literature. Our best model achieved an accuracy with 84.2% using Modern and 78.7% using Ghani. The full corpus and the annotation tool are open-source and publicly available at https://sina.birzeit.edu/salma/.

arxiv情報

著者 Mustafa Jarrar,Sanad Malaysha,Tymaa Hammouda,Mohammed Khalilia
発行日 2023-10-29 14:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク