Comparing Neighbors Together Makes it Easy: Jointly Comparing Multiple Candidates for Efficient and Effective Retrieval

要約

一般的な取得と再ランクのパラダイムには、スケーラブルなバイエンコーダを使用して関連する候補の広範なセットを取得し、続いて高価ではあるがより正確なクロスエンコーダを使用して限られた候補セットを取得することが含まれます。
ただし、この小さなサブセットはバイエンコーダーからのエラー伝播を引き起こすことが多く、それによってパイプライン全体のパフォーマンスが制限されます。
これらの問題に対処するために、浅いセルフアテンション層を通じてクエリと複数の候補埋め込みを共同で比較する、複数候補の比較 (CMC) フレームワークを提案します。
CMC はコンテキスト化された表現を提供しながら、複数の比較を同時に処理できる十分なスケーラビリティを備えており、2,000 個の候補を比較する場合、100 個の候補を比較する場合に比べて 2 倍の時間しかかかりません。実務者は、CMC を軽量で効果的な再ランカーとして使用して、上位 1 位の精度を向上させることができます。
さらに、別のレトリーバーと統合すると、CMC リランキングは仮想的に強化されたレトリーバーとして機能できます。
この構成では、単一のレトリーバー (仮想) を使用する場合と比較して、遅延は無視できる程度しか追加されませんが、K (強化) での再現率は大幅に向上します。} 実験を通じて、CMC が仮想強化型レトリーバーとして Recall@k (+6.7、+6.7) を大幅に向上させることを実証しました。
+3.5%-p (R@16、R@64 の場合)、ZeSHEL データセットの初期取得段階と比較して。
一方で、エンティティ、パッセージ、対話のランキングを直接再ランキングする実験を行っています。
結果は、CMC がクロスエンコーダーよりも高速 (11 倍) であるだけでなく、Wikipedia エンティティ リンク (+0.7%-p) および DSTC7 ダイアログ ランキング (+3.3%-p) での予測パフォーマンスが向上し、効果的であることが多いことを示しています。
コードとデータセットへのリンクは、https://github.com/yc-song/cmc で入手できます。

要約(オリジナル)

A common retrieve-and-rerank paradigm involves retrieving a broad set of relevant candidates using a scalable bi-encoder, followed by expensive but more accurate cross-encoders to a limited candidate set. However, this small subset often leads to error propagation from the bi-encoders, thereby restricting the performance of the overall pipeline. To address these issues, we propose the Comparing Multiple Candidates (CMC) framework, which compares a query and multiple candidate embeddings jointly through shallow self-attention layers. While providing contextualized representations, CMC is scalable enough to handle multiple comparisons simultaneously, where comparing 2K candidates takes only twice as long as comparing 100. Practitioners can use CMC as a lightweight and effective reranker to improve top-1 accuracy. Moreover, when integrated with another retriever, CMC reranking can function as a virtually enhanced retriever. This configuration adds only negligible latency compared to using a single retriever (virtual), while significantly improving recall at K (enhanced).} Through experiments, we demonstrate that CMC, as a virtually enhanced retriever, significantly improves Recall@k (+6.7, +3.5%-p for R@16, R@64) compared to the initial retrieval stage on the ZeSHEL dataset. Meanwhile, we conduct experiments for direct reranking on entity, passage, and dialogue ranking. The results indicate that CMC is not only faster (11x) than cross-encoders but also often more effective, with improved prediction performance in Wikipedia entity linking (+0.7%-p) and DSTC7 dialogue ranking (+3.3%-p). The code and link to datasets are available at https://github.com/yc-song/cmc

arxiv情報

著者 Jonghyun Song,Cheyon Jin,Wenlong Zhao,Jay-Yoon Lee
発行日 2024-05-21 13:51:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク