Search-Adaptor: Embedding Customization for Information Retrieval

要約

事前トレーニングされた大規模言語モデル (LLM) によって抽出された埋め込みには、情報の検索と検索を向上させる大きな可能性があります。
従来使用されているゼロショット設定を超えて、関連するクエリとコーパスのペアのデータからの情報を利用できることで、LLM の機能をさらに高めることができます。
この論文では、効率的かつ堅牢な方法で情報検索用に LLM をカスタマイズするための新しい方法である Search-Adaptor を提案します。
Search-Adaptor は、事前トレーニングされた LLM によって生成された埋め込みを変更し、予測 API 経由でのみ利用可能なものを含む任意の LLM と統合できます。
複数の英語、多言語、マルチモーダル検索データセットで、Search-Adaptor の一貫した重要なパフォーマンス上の利点が示されました。たとえば、14 個の BEIR データセットで平均した nDCG@10 の Google Embedding API で 5% 以上の改善が見られました。

要約(オリジナル)

Embeddings extracted by pre-trained Large Language Models (LLMs) have significant potential to improve information retrieval and search. Beyond the zero-shot setup in which they are being conventionally used, being able to take advantage of the information from the relevant query-corpus paired data can further boost the LLM capabilities. In this paper, we propose a novel method, Search-Adaptor, for customizing LLMs for information retrieval in an efficient and robust way. Search-Adaptor modifies the embeddings generated by pre-trained LLMs, and can be integrated with any LLM, including those only available via prediction APIs. On multiple English, multilingual, and multimodal retrieval datasets, we show consistent and significant performance benefits for Search-Adaptor — e.g., more than 5% improvements for Google Embedding APIs in nDCG@10 averaged over 14 BEIR datasets.

arxiv情報

著者 Jinsung Yoon,Sercan O Arik,Yanfei Chen,Tomas Pfister
発行日 2024-08-23 17:55:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク