Gecko: Versatile Text Embeddings Distilled from Large Language Models

要約

コンパクトで多用途なテキスト埋め込みモデルである Gecko を紹介します。
Gecko は、大規模言語モデル (LLM) からの知識を取り出して取得するという重要なアイデアを活用することで、強力な検索パフォーマンスを実現します。
当社の 2 段階の蒸留プロセスは、LLM を使用して多様な合成ペア データを生成することから始まります。
次に、クエリごとに候補パッセージのセットを取得し、同じ LLM を使用してポジティブ パッセージとハード ネガティブ パッセージのラベルを付け直すことで、データ品質をさらに調整します。
私たちのアプローチの有効性は、Gecko のコンパクトさによって実証されています。
Massive Text Embedding Benchmark (MTEB) では、埋め込みサイズ 256 の Gecko が、埋め込みサイズ 768 の既存のすべてのエントリを上回っています。
768 の埋め込み次元を持つ Gecko は、平均スコア 66.31 を達成し、7 倍の大きなモデルや 5 倍の高次元の埋め込みと競合します。

要約(オリジナル)

We present Gecko, a compact and versatile text embedding model. Gecko achieves strong retrieval performance by leveraging a key idea: distilling knowledge from large language models (LLMs) into a retriever. Our two-step distillation process begins with generating diverse, synthetic paired data using an LLM. Next, we further refine the data quality by retrieving a set of candidate passages for each query, and relabeling the positive and hard negative passages using the same LLM. The effectiveness of our approach is demonstrated by the compactness of the Gecko. On the Massive Text Embedding Benchmark (MTEB), Gecko with 256 embedding dimensions outperforms all existing entries with 768 embedding size. Gecko with 768 embedding dimensions achieves an average score of 66.31, competing with 7x larger models and 5x higher dimensional embeddings.

arxiv情報

著者 Jinhyuk Lee,Zhuyun Dai,Xiaoqi Ren,Blair Chen,Daniel Cer,Jeremy R. Cole,Kai Hui,Michael Boratko,Rajvi Kapadia,Wen Ding,Yi Luan,Sai Meher Karthik Duddu,Gustavo Hernandez Abrego,Weiqiang Shi,Nithi Gupta,Aditya Kusupati,Prateek Jain,Siddhartha Reddy Jonnalagadda,Ming-Wei Chang,Iftekhar Naim
発行日 2024-03-29 17:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク