Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines

要約

この研究では、ユーザーが説明や意味に基づいて単語を見つけることができる効果的なアラビア語逆辞書(RD)システムを開発することにより、アラビア語の自然言語処理の重要なギャップに対処します。
アラビア語のRDタスクの最新の結果を達成する幾何学的に減少する層を特徴とする半エンコーダーニューラルネットワークアーキテクチャを使用して、新しい変圧器ベースのアプローチを提示します。
当社の方法論には、包括的なデータセット構築プロセスが組み込まれており、アラビア語の辞書的定義の正式な品質基準を確立します。
さまざまな訓練を受けたモデルを使用した実験は、アラビア語固有のモデルが一般的な多言語埋め込みを大幅に上回り、ArbertV2が最高のランキングスコアを達成することを示しています(0.0644)。
さらに、理論的理解を高め、構成可能なトレーニングパイプラインを使用してモジュール式の拡張可能なPythonライブラリ(RDTL)を開発する逆辞書タスクの正式な抽象化を提供します。
データセット品質の分析により、アラビア語の定義構造を改善するための重要な洞察が明らかになり、高品質の逆辞書リソースを構築するための8つの特定の基準につながります。
この作業は、アラビア語の計算言語学に大きく貢献し、アラビア語での言語学習、アカデミックライティング、専門的コミュニケーションに貴重なツールを提供します。

要約(オリジナル)

This study addresses the critical gap in Arabic natural language processing by developing an effective Arabic Reverse Dictionary (RD) system that enables users to find words based on their descriptions or meanings. We present a novel transformer-based approach with a semi-encoder neural network architecture featuring geometrically decreasing layers that achieves state-of-the-art results for Arabic RD tasks. Our methodology incorporates a comprehensive dataset construction process and establishes formal quality standards for Arabic lexicographic definitions. Experiments with various pre-trained models demonstrate that Arabic-specific models significantly outperform general multilingual embeddings, with ARBERTv2 achieving the best ranking score (0.0644). Additionally, we provide a formal abstraction of the reverse dictionary task that enhances theoretical understanding and develop a modular, extensible Python library (RDTL) with configurable training pipelines. Our analysis of dataset quality reveals important insights for improving Arabic definition construction, leading to eight specific standards for building high-quality reverse dictionary resources. This work contributes significantly to Arabic computational linguistics and provides valuable tools for language learning, academic writing, and professional communication in Arabic.

arxiv情報

著者 Serry Sibaee,Samar Ahmed,Abdullah Al Harbi,Omer Nacar,Adel Ammar,Yasser Habashi,Wadii Boulila
発行日 2025-04-30 09:56:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク