Improving Text Embeddings with Large Language Models

要約

この論文では、合成データのみと 1,000 未満のトレーニング ステップを使用して、高品質のテキスト埋め込みを取得するための新しくて簡単な方法を紹介します。
多くの場合、数十億の弱い教師付きテキストペアを使用した多段階の中間事前トレーニングと、それに続く少数のラベル付きデータセットによる微調整に依存する既存の方法とは異なり、私たちの方法は、複雑なトレーニングパイプラインを構築したり、手動で収集されたデータセットに依存したりする必要がありません。
多くの場合、タスクの多様性と言語範囲によって制約されます。
当社は独自の LLM を活用して、約 100 の言語にわたる数十万のテキスト埋め込みタスク用の多様な合成データを生成します。
次に、標準的なコントラスト損失を使用して、合成データ上でオープンソースのデコーダ専用 LLM を微調整します。
実験では、ラベル付きデータを使用せずに、競合性の高いテキスト埋め込みベンチマークで私たちの方法が優れたパフォーマンスを達成できることを示しています。
さらに、合成データとラベル付けされたデータを組み合わせて微調整すると、私たちのモデルは BEIR ベンチマークと MTEB ベンチマークで新しい最先端の結果をもたらします。

要約(オリジナル)

In this paper, we introduce a novel and simple method for obtaining high-quality text embeddings using only synthetic data and less than 1k training steps. Unlike existing methods that often depend on multi-stage intermediate pre-training with billions of weakly-supervised text pairs, followed by fine-tuning with a few labeled datasets, our method does not require building complex training pipelines or relying on manually collected datasets that are often constrained by task diversity and language coverage. We leverage proprietary LLMs to generate diverse synthetic data for hundreds of thousands of text embedding tasks across nearly 100 languages. We then fine-tune open-source decoder-only LLMs on the synthetic data using standard contrastive loss. Experiments demonstrate that our method achieves strong performance on highly competitive text embedding benchmarks without using any labeled data. Furthermore, when fine-tuned with a mixture of synthetic and labeled data, our model sets new state-of-the-art results on the BEIR and MTEB benchmarks.

arxiv情報

著者 Liang Wang,Nan Yang,Xiaolong Huang,Linjun Yang,Rangan Majumder,Furu Wei
発行日 2024-01-19 05:16:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク