Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents

要約

テキスト埋め込みモデルは、文を意味情報をカプセル化する固定サイズの特徴ベクトルに変換するための強力なツールとして登場しました。
これらのモデルは、情報検索、セマンティック クラスタリング、テキストの再ランキングなどのタスクには不可欠ですが、既存のほとんどのオープンソース モデル、特に BERT などのアーキテクチャに基づいて構築されたモデルは、長いドキュメントを表現するのに苦労し、しばしば切り捨てに頼ることになります。
この課題を軽減するための一般的なアプローチの 1 つは、文書を小さな段落に分割して埋め込むことです。
ただし、この戦略ではベクトルのセットが非常に大きくなり、その結果、メモリ消費量が増加し、待ち時間が長くなり、計算量が多いベクトル検索が発生します。
これらの課題に対処するために、最大 8192 個のトークンに対応できるオープンソースのテキスト埋め込みモデルである Jina Embeddings 2 を導入します。
このモデルは、従来の 512 トークンの制限を超え、長いドキュメントを適切に処理するように設計されています。
Jina Embeddings 2 は、MTEB ベンチマークのさまざまな埋め込み関連タスクで最先端のパフォーマンスを達成するだけでなく、OpenAI 独自の ada-002 モデルのパフォーマンスにも匹敵します。
さらに、私たちの実験では、拡張コンテキストによって NarrativeQA などのタスクのパフォーマンスが向上することが示されています。

要約(オリジナル)

Text embedding models have emerged as powerful tools for transforming sentences into fixed-sized feature vectors that encapsulate semantic information. While these models are essential for tasks like information retrieval, semantic clustering, and text re-ranking, most existing open-source models, especially those built on architectures like BERT, struggle to represent lengthy documents and often resort to truncation. One common approach to mitigate this challenge involves splitting documents into smaller paragraphs for embedding. However, this strategy results in a much larger set of vectors, consequently leading to increased memory consumption and computationally intensive vector searches with elevated latency. To address these challenges, we introduce Jina Embeddings 2, an open-source text embedding model capable of accommodating up to 8192 tokens. This model is designed to transcend the conventional 512-token limit and adeptly process long documents. Jina Embeddings 2 not only achieves state-of-the-art performance on a range of embedding-related tasks in the MTEB benchmark but also matches the performance of OpenAI’s proprietary ada-002 model. Additionally, our experiments indicate that an extended context can enhance performance in tasks such as NarrativeQA.

arxiv情報

著者 Michael Günther,Jackmin Ong,Isabelle Mohr,Alaeddine Abdessalem,Tanguy Abel,Mohammad Kalim Akram,Susana Guzman,Georgios Mastrapas,Saba Sturua,Bo Wang,Maximilian Werk,Nan Wang,Han Xiao
発行日 2024-01-02 10:01:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2.7 パーマリンク