要約
アラビア語を中心とした埋め込みモデルのファミリーである{\ bf Swan}を紹介し、小規模および大規模なユースケースの両方に対処します。
白鳥には、ArbertV2に基づく白鳥の小さいバリエーションと、前提条件のアラビア語の大手言語モデルであるArmistral上に構築されたSwan-Largeの2つのバリアントが含まれています。
これらのモデルを評価するために、8つの多様なタスクと94データセットにまたがる94のデータセットをカバーし、言語間、多次直腸、多型、多文化のアラビア語のテキストの埋め込みを評価する包括的なベンチマークスイートであるArabicMTebを提案します。
Swan-Largeは最新の結果を達成し、ほとんどのアラビア語のタスクで多言語-E5-Largeを上回り、Swan-Smallは一貫して多言語E5ベースを上回ります。
私たちの広範な評価は、白鳥のモデルが方言的および文化的に認識しており、さまざまなアラビア語のドメインで優れている一方で、大きな金融効率を提供していることを示しています。
この作業は、アラビア語のモデリングの分野を大幅に進め、アラビア語の自然言語処理における将来の研究とアプリケーションに貴重なリソースを提供します。
モデルとベンチマークは、githubページで入手できます:\ href {https://github.com/ubc-nlp/swan} {https://github.com/ubc-nlp/swan}
要約(オリジナル)
We introduce {\bf Swan}, a family of embedding models centred around the Arabic language, addressing both small-scale and large-scale use cases. Swan includes two variants: Swan-Small, based on ARBERTv2, and Swan-Large, built on ArMistral, a pretrained Arabic large language model. To evaluate these models, we propose ArabicMTEB, a comprehensive benchmark suite that assesses cross-lingual, multi-dialectal, multi-domain, and multi-cultural Arabic text embedding performance, covering eight diverse tasks and spanning 94 datasets. Swan-Large achieves state-of-the-art results, outperforming Multilingual-E5-large in most Arabic tasks, while the Swan-Small consistently surpasses Multilingual-E5-base. Our extensive evaluations demonstrate that Swan models are both dialectally and culturally aware, excelling across various Arabic domains while offering significant monetary efficiency. This work significantly advances the field of Arabic language modelling and provides valuable resources for future research and applications in Arabic natural language processing. Our models and benchmark are available at our GitHub page: \href{https://github.com/UBC-NLP/swan}{https://github.com/UBC-NLP/swan}
arxiv情報
著者 | Gagan Bhatia,El Moatez Billah Nagoudi,Abdellah El Mekki,Fakhraddin Alwajih,Muhammad Abdul-Mageed |
発行日 | 2025-02-11 15:36:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google