Online Distillation for Pseudo-Relevance Feedback

要約

モデル蒸留は、ニューラル検索モデルを改善するための著名な手法として登場しました。
これまで、蒸留にはオフライン アプローチが採用されており、新しいニューラル モデルがトレーニングされて、任意のクエリとドキュメントの間の関連性スコアが予測されていました。
この論文では、ニューラル再ランキング結果から特定のクエリのモデルを効果的に抽出できるかどうか (つまり、オンライン設定での抽出) を調査することで、このオフライン抽出戦略からの脱却を模索します。
実際、オンラインで抽出された語彙モデルは、ニューラル モデルの再ランキングを合理的に再現できることがわかりました。
さらに重要なのは、これらのモデルは、インデックスに対して効率的に実行されるクエリとして使用できることです。
この 2 番目の取得段階では、最初の取得段階で見逃したドキュメントを特定することで、再ランキング用のドキュメントのプールを充実させることができます。
経験的に、このアプローチは、確立された擬似関連性フィードバック技術、高密度検索手法、および疎-密アンサンブルの「ハイブリッド」アプローチと比較した場合に有利に機能することを示しています。

要約(オリジナル)

Model distillation has emerged as a prominent technique to improve neural search models. To date, distillation taken an offline approach, wherein a new neural model is trained to predict relevance scores between arbitrary queries and documents. In this paper, we explore a departure from this offline distillation strategy by investigating whether a model for a specific query can be effectively distilled from neural re-ranking results (i.e., distilling in an online setting). Indeed, we find that a lexical model distilled online can reasonably replicate the re-ranking of a neural model. More importantly, these models can be used as queries that execute efficiently on indexes. This second retrieval stage can enrich the pool of documents for re-ranking by identifying documents that were missed in the first retrieval stage. Empirically, we show that this approach performs favourably when compared with established pseudo relevance feedback techniques, dense retrieval methods, and sparse-dense ensemble ‘hybrid’ approaches.

arxiv情報

著者 Sean MacAvaney,Xi Wang
発行日 2023-06-16 07:26:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク