ArabicNLU 2024: The First Arabic Natural Language Understanding Shared Task


このペーパーでは、単語感覚の曖昧さ回避 (WSD) と場所言及の曖昧さ回避 (LMD) の 2 つのサブタスクに焦点を当て、アラビア語自然言語理解 (ArabicNLU 2024) 共有タスクの概要を説明します。
私たちは、約 34,000 個の注釈付きトークンを含む SALMA と呼ばれる WSD 用の感覚注釈付きコーパスや、3,893 個の注釈と 763 個の一意の位置言及を含む IDRISI-DA データセットなどの新しいデータセットを参加者に提供しました。
38 の登録チームのうち、最終評価フェーズに参加したチームは 3 チームのみで、最高精度は WSD の 77.8%、最高 MRR@1 は LMD の 95.0% でした。
共有タスクにより、さまざまな技術の評価と比較が容易になっただけでなく、アラビア語 NLU 技術の継続的な進歩のための貴重な洞察とリソースも提供されました。


This paper presents an overview of the Arabic Natural Language Understanding (ArabicNLU 2024) shared task, focusing on two subtasks: Word Sense Disambiguation (WSD) and Location Mention Disambiguation (LMD). The task aimed to evaluate the ability of automated systems to resolve word ambiguity and identify locations mentioned in Arabic text. We provided participants with novel datasets, including a sense-annotated corpus for WSD, called SALMA with approximately 34k annotated tokens, and the IDRISI-DA dataset with 3,893 annotations and 763 unique location mentions. These are challenging tasks. Out of the 38 registered teams, only three teams participated in the final evaluation phase, with the highest accuracy being 77.8% for WSD and the highest MRR@1 being 95.0% for LMD. The shared task not only facilitated the evaluation and comparison of different techniques, but also provided valuable insights and resources for the continued advancement of Arabic NLU technologies.


著者 Mohammed Khalilia,Sanad Malaysha,Reem Suwaileh,Mustafa Jarrar,Alaa Aljabari,Tamer Elsayed,Imed Zitouni
発行日 2024-07-30 08:57:01+00:00
