要約
テキストの埋め込みにおける最近の進歩により、多くの言語で自然言語の理解が大幅に改善されましたが、ペルシャ語は大規模な埋め込み研究で特に過小評価されています。
この論文では、FAMTEBベンチマーク上の既存のアプローチより8.5%のパフォーマンス改善を達成する、以前に開発されたすべてのペルシャ語モデルを上回る、既存のアプローチよりも8.5%のパフォーマンス改善を達成する、ペルシャのテキスト埋め込みモデルであるHakimを紹介します。
この作業の一環として、監督された監視されていないトレーニングシナリオをサポートするために、コーペシア、ペイリアサップ、ペイリアアンサップの3つの新しいデータセットを紹介します。
さらに、Hakimは、チャットボットおよび検索された生成(RAG)システムのアプリケーション用に設計されており、特にこれらのシステムにメッセージ履歴を組み込む必要がある検索タスクに対処します。
また、Bert Architectureに基づいて構築された新しいベースラインモデルも提案します。
私たちの言語モデルは、さまざまなペルシャのNLPタスクで一貫してより高い精度を達成しますが、レトロマベースのモデルはテキスト情報検索アプリケーションに特に効果的であることが証明されています。
一緒に、これらの貢献は、ペルシャ語の理解を深めるための新しい基盤を確立します。
要約(オリジナル)
Recent advancements in text embedding have significantly improved natural language understanding across many languages, yet Persian remains notably underrepresented in large-scale embedding research. In this paper, we present Hakim, a novel state-of-the-art Persian text embedding model that achieves a 8.5% performance improvement over existing approaches on the FaMTEB benchmark, outperforming all previously developed Persian language models. As part of this work, we introduce three new datasets – Corpesia, Pairsia-sup, and Pairsia-unsup – to support supervised and unsupervised training scenarios. Additionally, Hakim is designed for applications in chatbots and retrieval-augmented generation (RAG) systems, particularly addressing retrieval tasks that require incorporating message history within these systems. We also propose a new baseline model built on the BERT architecture. Our language model consistently achieves higher accuracy across various Persian NLP tasks, while the RetroMAE-based model proves particularly effective for textual information retrieval applications. Together, these contributions establish a new foundation for advancing Persian language understanding.
arxiv情報
著者 | Mehran Sarmadi,Morteza Alikhani,Erfan Zinvandi,Zahra Pourbahman |
発行日 | 2025-05-13 10:57:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google