要約
検索は、クエリが与えられた大規模なコーパスから関連するアイテムを効率的に見つけることにより、レコメンデーション システム、検索、および自然言語処理 (NLP) において基本的な役割を果たします。
ドット積は、効率的な検索を実現する最大内積検索 (MIPS) アルゴリズムによって可能になり、このようなタスクの類似度関数として広く使用されています。
ただし、最先端の検索アルゴリズムは学習された類似性に移行しています。
これらの高度なアプローチには、複数のクエリの埋め込み、複雑なニューラル ネットワーク、ビーム検索によるアイテム ID の直接デコード、およびハイブリッド ソリューションが含まれます。
残念ながら、これらの最先端のセットアップでは、効率的な検索ソリューションがありません。
私たちの研究では、表現力豊かな学習済み類似性関数を使用した効率的な検索手法を調査することで、このギャップに対処しています。
我々は、類似度関数の汎用近似器としてMixture-of-Logits(MoL)を確立し、MoLの表現力が多様な検索シナリオで優れたパフォーマンスを達成するために経験的に実現できることを実証し、タイトなMoLを使用して上位kの近似結果を検索する手法を提案します。
誤差の範囲。
広範な実験を通じて、提案した相互情報ベースの負荷分散損失によって強化された MoL が、レコメンデーション システムの逐次検索モデルや質問応答の微調整言語モデルなど、異種シナリオ全体で新しい最先端の結果を生み出すことを示します。
また、当社の近似上位 $k$ アルゴリズムは、正確なアルゴリズムと比較して 0.99 以上の再現率を達成しながら、レイテンシでベースラインを最大 66 倍上回っています。
要約(オリジナル)
Retrieval plays a fundamental role in recommendation systems, search, and natural language processing (NLP) by efficiently finding relevant items from a large corpus given a query. Dot products have been widely used as the similarity function in such tasks, enabled by Maximum Inner Product Search (MIPS) algorithms for efficient retrieval. However, state-of-the-art retrieval algorithms have migrated to learned similarities. These advanced approaches encompass multiple query embeddings, complex neural networks, direct item ID decoding via beam search, and hybrid solutions. Unfortunately, we lack efficient solutions for retrieval in these state-of-the-art setups. Our work addresses this gap by investigating efficient retrieval techniques with expressive learned similarity functions. We establish Mixture-of-Logits (MoL) as a universal approximator of similarity functions, demonstrate that MoL’s expressiveness can be realized empirically to achieve superior performance on diverse retrieval scenarios, and propose techniques to retrieve the approximate top-k results using MoL with tight error bounds. Through extensive experimentation, we show that MoL, enhanced by our proposed mutual information-based load balancing loss, sets new state-of-the-art results across heterogeneous scenarios, including sequential retrieval models in recommendation systems and finetuning language models for question answering; and our approximate top-$k$ algorithms outperform baselines by up to 66x in latency while achieving >.99 recall rate compared to exact algorithms.
arxiv情報
著者 | Bailu Ding,Jiaqi Zhai |
発行日 | 2024-11-20 18:30:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google