Advancing the Arabic WordNet: Elevating Content Quality


このようなリソースに依存する NLP アプリケーションで高品質の結果を達成するには、高品質の WordNet が不可欠です。
この論文では、アラビア語に焦点を当て、語彙意味論的リソースの品質の複数の側面に対処するアラビア語 WordNet の主要な改訂版を紹介します。
その結果、不足している情報を追加し、エラーを修正することにより、既存のアラビア語 WordNet のシンセットの 58% 以上を更新しました。


High-quality WordNets are crucial for achieving high-quality results in NLP applications that rely on such resources. However, the wordnets of most languages suffer from serious issues of correctness and completeness with respect to the words and word meanings they define, such as incorrect lemmas, missing glosses and example sentences, or an inadequate, Western-centric representation of the morphology and the semantics of the language. Previous efforts have largely focused on increasing lexical coverage while ignoring other qualitative aspects. In this paper, we focus on the Arabic language and introduce a major revision of the Arabic WordNet that addresses multiple dimensions of lexico-semantic resource quality. As a result, we updated more than 58% of the synsets of the existing Arabic WordNet by adding missing information and correcting errors. In order to address issues of language diversity and untranslatability, we also extended the wordnet structure by new elements: phrasets and lexical gaps.


著者 Abed Alhakim Freihat,Hadi Khalilia,Gábor Bella,Fausto Giunchiglia
発行日 2024-03-29 14:54:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク