Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning

要約

この研究では、多言語、アラビア語固有、および英語ベースのモデルを活用して、Matryoshka Embedding Learning を通じてアラビア語のネストされた埋め込みモデルをトレーニングするための新しいフレームワークを提示し、さまざまなアラビア語 NLP ダウンストリーム タスクにおけるネストされた埋め込みモデルの能力を強調します。
私たちの革新的な貢献には、さまざまな文の類似性データセットのアラビア語への翻訳が含まれており、これらのモデルをさまざまな次元で比較するための包括的な評価フレームワークが可能になります。
アラビア語自然言語推論トリプレット データセットでいくつかのネストされた埋め込みモデルをトレーニングし、コサイン類似度、マンハッタン距離、ユークリッド距離、ドット積類似度のピアソン相関とスピアマン相関を含む複数の評価メトリクスを使用してパフォーマンスを評価しました。
この結果は、特にアラビア語に特有の意味上のニュアンスの捕捉において、マトリョーシカ埋め込みモデルの優れたパフォーマンスを示しています。
結果は、アラビア語のマトリョーシカ埋め込みモデルが、アラビア語に特有の意味論的なニュアンスの捕捉において優れたパフォーマンスを備え、さまざまな類似性メトリクス全体で従来のモデルを最大 20 ~ 25\% 大幅に上回るパフォーマンスを示したことが実証されました。
これらの結果は、言語固有のトレーニングの有効性を強調し、アラビア語 NLP の意味論的テキスト類似性タスクを強化するマトリョーシカ モデルの可能性を強調しています。

要約(オリジナル)

This work presents a novel framework for training Arabic nested embedding models through Matryoshka Embedding Learning, leveraging multilingual, Arabic-specific, and English-based models, to highlight the power of nested embeddings models in various Arabic NLP downstream tasks. Our innovative contribution includes the translation of various sentence similarity datasets into Arabic, enabling a comprehensive evaluation framework to compare these models across different dimensions. We trained several nested embedding models on the Arabic Natural Language Inference triplet dataset and assessed their performance using multiple evaluation metrics, including Pearson and Spearman correlations for cosine similarity, Manhattan distance, Euclidean distance, and dot product similarity. The results demonstrate the superior performance of the Matryoshka embedding models, particularly in capturing semantic nuances unique to the Arabic language. Results demonstrated that Arabic Matryoshka embedding models have superior performance in capturing semantic nuances unique to the Arabic language, significantly outperforming traditional models by up to 20-25\% across various similarity metrics. These results underscore the effectiveness of language-specific training and highlight the potential of Matryoshka models in enhancing semantic textual similarity tasks for Arabic NLP.

arxiv情報

著者 Omer Nacar,Anis Koubaa
発行日 2024-08-01 12:24:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク