jina-embeddings-v3: Multilingual Embeddings With Task LoRA

要約

jina-embeddings-v3 は、5 億 7,000 万のパラメーターを備えた新しいテキスト埋め込みモデルであり、多言語データと長いコンテキストの取得タスクで最先端のパフォーマンスを実現し、最大 8192 トークンのコンテキスト長をサポートします。
このモデルには、クエリ ドキュメントの取得、クラスタリング、分類、およびテキスト マッチングのための高品質の埋め込みを生成する、タスク固有の低ランク適応 (LoRA) アダプターのセットが含まれています。
さらに、マトリョーシカ表現学習がトレーニング プロセスに統合されているため、パフォーマンスを損なうことなく、埋め込み次元を柔軟に切り捨てることができます。
MTEB ベンチマークでの評価では、jina-embeddings-v3 が英語タスクに関して OpenAI および Cohere の最新の独自の埋め込みを上回り、すべての多言語タスクにわたって multilingual-e5-large-instruct と比較して優れたパフォーマンスを達成していることが示されています。

要約(オリジナル)

We introduce jina-embeddings-v3, a novel text embedding model with 570 million parameters, achieves state-of-the-art performance on multilingual data and long-context retrieval tasks, supporting context lengths of up to 8192 tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA) adapters to generate high-quality embeddings for query-document retrieval, clustering, classification, and text matching. Additionally, Matryoshka Representation Learning is integrated into the training process, allowing flexible truncation of embedding dimensions without compromising performance. Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the latest proprietary embeddings from OpenAI and Cohere on English tasks, while achieving superior performance compared to multilingual-e5-large-instruct across all multilingual tasks.

arxiv情報

著者 Saba Sturua,Isabelle Mohr,Mohammad Kalim Akram,Michael Günther,Bo Wang,Markus Krimmel,Feng Wang,Georgios Mastrapas,Andreas Koukounas,Andreas Koukounas,Nan Wang,Han Xiao
発行日 2024-09-16 11:10:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.IR, I.2.7 パーマリンク