Advancing the Arabic WordNet: Elevating Content Quality

要約

このようなリソースに依存する NLP アプリケーションで高品質の結果を達成するには、高品質の WordNet が不可欠です。
しかし、ほとんどの言語のワードネットは、それらが定義する単語と単語の意味に関して、正確性と完全性という深刻な問題を抱えています。たとえば、補題が間違っている、用語や例文が欠落している、形態や言語の不適切な西洋中心の表現などが挙げられます。
言語の意味論。
これまでの取り組みは主に語彙範囲を増やすことに焦点を当てており、他の定性的側面は無視されていました。
この論文では、アラビア語に焦点を当て、語彙意味論的リソースの品質の複数の側面に対処するアラビア語 WordNet の主要な改訂版を紹介します。
その結果、不足している情報を追加し、エラーを修正することにより、既存のアラビア語 WordNet のシンセットの 58% 以上を更新しました。
言語の多様性と翻訳不可能性の問題に対処するために、私たちはまた、フレーズと語彙のギャップという新しい要素によってワードネット構造を拡張しました。

要約(オリジナル)

High-quality WordNets are crucial for achieving high-quality results in NLP applications that rely on such resources. However, the wordnets of most languages suffer from serious issues of correctness and completeness with respect to the words and word meanings they define, such as incorrect lemmas, missing glosses and example sentences, or an inadequate, Western-centric representation of the morphology and the semantics of the language. Previous efforts have largely focused on increasing lexical coverage while ignoring other qualitative aspects. In this paper, we focus on the Arabic language and introduce a major revision of the Arabic WordNet that addresses multiple dimensions of lexico-semantic resource quality. As a result, we updated more than 58% of the synsets of the existing Arabic WordNet by adding missing information and correcting errors. In order to address issues of language diversity and untranslatability, we also extended the wordnet structure by new elements: phrasets and lexical gaps.

arxiv情報

著者 Abed Alhakim Freihat,Hadi Khalilia,Gábor Bella,Fausto Giunchiglia
発行日 2024-03-29 14:54:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク