Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models

要約

Jina Embeddings は、テキスト入力を数値表現に変換し、テキストのセマンティクスをキャプチャすることに優れた高性能の文埋め込みモデルのセットを構成します。
これらのモデルは、密な検索や意味的なテキストの類似性などのアプリケーションに優れています。
このペーパーでは、高品質のペアごとおよびトリプレット データセットの作成から始まる、Jina Embeddings の開発について詳しく説明します。
データセットの準備におけるデータ クリーニングの重要な役割を強調し、モデル トレーニング プロセスについての深い洞察を提供し、Massive Text Embedding Benchmark (MTEB) を使用した包括的なパフォーマンス評価で締めくくります。
さらに、文法否定に対するモデルの認識を高めるために、否定ステートメントと非否定ステートメントの新しいトレーニングおよび評価データセットを構築し、コミュニティに公開します。

要約(オリジナル)

Jina Embeddings constitutes a set of high-performance sentence embedding models adept at translating textual inputs into numerical representations, capturing the semantics of the text. These models excel in applications like dense retrieval and semantic textual similarity. This paper details the development of Jina Embeddings, starting with the creation of high-quality pairwise and triplet datasets. It underlines the crucial role of data cleaning in dataset preparation, offers in-depth insights into the model training process, and concludes with a comprehensive performance evaluation using the Massive Text Embedding Benchmark (MTEB). Furthermore, to increase the model’s awareness of grammatical negation, we construct a novel training and evaluation dataset of negated and non-negated statements, which we make publicly available to the community.

arxiv情報

著者 Michael Günther,Louis Milliken,Jonathan Geuter,Georgios Mastrapas,Bo Wang,Han Xiao
発行日 2023-10-20 14:09:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.IR, cs.LG, H.3.3 パーマリンク