要約
取得と再ランク付けは、ニューラル情報検索における一般的なフレームワークであり、バイエンコーダー ネットワークが最初に事前定義された数の候補 (例: K=100) を取得し、その後、より強力なクロスエンコーダー モデルによって再ランク付けされます。
リランカーは検索ツールと比較して候補スコアが向上することがよくありますが、その範囲は検索された上位 K 個の候補のみに限定されます。
その結果、リランカーは Recall@K の観点から検索パフォーマンスを向上させることができません。
この研究では、リランカーを利用して推論時に検索者に関連性フィードバックを提供することで再現率を向上させることを提案します。
具体的には、推論中にテスト インスタンスが与えられると、軽量の更新メカニズムを使用して、そのインスタンスに対するリランカーの予測を取得者のクエリ表現に抽出します。
蒸留損失の目的は、取得者の候補スコアをリランカーによって生成されたスコアとより厳密に一致させることです。
次にアルゴリズムは、更新されたクエリ ベクトルを使用して 2 番目の検索ステップを実行します。
我々は、さまざまな検索と再ランク付けのフレームワークに適用できるこの方法が、複数のドメイン、言語、およびモダリティにわたって検索の再現率を大幅に向上させることを経験的に示しています。
要約(オリジナル)
Retrieve-and-rerank is a prevalent framework in neural information retrieval, wherein a bi-encoder network initially retrieves a pre-defined number of candidates (e.g., K=100), which are then reranked by a more powerful cross-encoder model. While the reranker often yields improved candidate scores compared to the retriever, its scope is confined to only the top K retrieved candidates. As a result, the reranker cannot improve retrieval performance in terms of Recall@K. In this work, we propose to leverage the reranker to improve recall by making it provide relevance feedback to the retriever at inference time. Specifically, given a test instance during inference, we distill the reranker’s predictions for that instance into the retriever’s query representation using a lightweight update mechanism. The aim of the distillation loss is to align the retriever’s candidate scores more closely with those produced by the reranker. The algorithm then proceeds by executing a second retrieval step using the updated query vector. We empirically demonstrate that this method, applicable to various retrieve-and-rerank frameworks, substantially enhances retrieval recall across multiple domains, languages, and modalities.
arxiv情報
著者 | Revanth Gangi Reddy,Pradeep Dasigi,Md Arafat Sultan,Arman Cohan,Avirup Sil,Heng Ji,Hannaneh Hajishirzi |
発行日 | 2024-05-28 17:12:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google