Nomic Embed: Training a Reproducible Long Context Text Embedder

要約

nomic-embed-text-v1は、OpenAIのAda-002とOpenAIのtext-embedding-3-smallの両方を、短い文脈と長い文脈のタスクで凌駕する。学習コードとモデルの重みはApache 2ライセンスで公開しています。他のオープンソースモデルとは対照的に、nomic-embed-text-v1の完全な複製を可能にする2億3,500万のキュレーションされたテキストペアを含むトレーニングデータローダーを公開しています。モデルを複製するコードとデータはhttps://github.com/nomic-ai/contrastors。

要約(オリジナル)

This technical report describes the training of nomic-embed-text-v1, the first fully reproducible, open-source, open-weights, open-data, 8192 context length English text embedding model that outperforms both OpenAI Ada-002 and OpenAI text-embedding-3-small on short and long-context tasks. We release the training code and model weights under an Apache 2 license. In contrast with other open-source models, we release a training data loader with 235 million curated text pairs that allows for the full replication of nomic-embed-text-v1. You can find code and data to replicate the model at https://github.com/nomic-ai/contrastors

arxiv情報

著者 Zach Nussbaum,John X. Morris,Brandon Duderstadt,Andriy Mulyar
発行日 2024-02-02 18:23:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク