When do Generative Query and Document Expansions Fail? A Comprehensive Study Across Methods, Retrievers, and Datasets

要約

クエリまたはドキュメントの拡張に大規模言語モデル (LM) を使用すると、情報検索の一般化が向上します。
ただし、これらの手法が普遍的に有益であるのか、それとも特定の検索モデル、データセット ドメイン、クエリ タイプなどの特定の設定でのみ効果があるのか​​は不明です。
これに答えるために、LM ベースの拡張に関する最初の包括的な分析を実行します。
私たちは、レトリバーのパフォーマンスと拡張による利益の間に強い負の相関関係が存在することを発見しました。拡張は弱いモデルのスコアを向上させますが、一般に強いモデルに悪影響を及ぼします。
この傾向が、11 の拡張手法、さまざまな分布シフトを伴う 12 のデータセット、および 24 の検索モデルのセットにわたって当てはまることを示します。
定性的エラー分析を通じて、拡張により追加の情報が提供される (再現率が向上する可能性がある) ものの、追加のノイズが追加され、上位の関連文書を区別することが困難になる (したがって誤検知が発生する) という仮説が立てられました。
私たちの結果は、次のレシピを示唆しています。弱いモデルの場合、またはターゲット データセットの形式がトレーニング コーパスと大きく異なる場合には、拡張を使用します。
それ以外の場合は、関連性を明確にするために拡張を避けてください。

要約(オリジナル)

Using large language models (LMs) for query or document expansion can improve generalization in information retrieval. However, it is unknown whether these techniques are universally beneficial or only effective in specific settings, such as for particular retrieval models, dataset domains, or query types. To answer this, we conduct the first comprehensive analysis of LM-based expansion. We find that there exists a strong negative correlation between retriever performance and gains from expansion: expansion improves scores for weaker models, but generally harms stronger models. We show this trend holds across a set of eleven expansion techniques, twelve datasets with diverse distribution shifts, and twenty-four retrieval models. Through qualitative error analysis, we hypothesize that although expansions provide extra information (potentially improving recall), they add additional noise that makes it difficult to discern between the top relevant documents (thus introducing false positives). Our results suggest the following recipe: use expansions for weaker models or when the target dataset significantly differs from training corpus in format; otherwise, avoid expansions to keep the relevance signal clear.

arxiv情報

著者 Orion Weller,Kyle Lo,David Wadden,Dawn Lawrie,Benjamin Van Durme,Arman Cohan,Luca Soldaini
発行日 2023-09-15 17:05:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク