Context Aware Query Rewriting for Text Rankers using LLM

要約

クエリ リライトとは、ドキュメントのランキングにおける語彙の不一致の問題を克服するために、仕様が不十分で曖昧なクエリに適用される確立されたアプローチのファミリーを指します。
通常、クエリは、下流ランカーのクエリ モデリングを改善するために、クエリ処理時間中に書き換えられます。
大規模言語モデル (LLM) の出現により、この固有の語彙ギャップに対処するために、生成的アプローチを使用して疑似ドキュメントを生成するという初期の調査が行われてきました。
この研究では、テキスト ランキング タスクのクエリ リライトを改善するための LLM の有用性を分析します。
LLM をクエリ リライターとして使用する場合、2 つの固有の制限があることがわかりました。クエリのみをプロンプトとして使用する場合の概念のずれと、クエリ処理中の大きな推論コストです。
私たちは、クエリの理解に LLM の利点を活用するために、コンテキスト アウェア クエリ リライト (CAR) と呼ばれる、シンプルでありながら驚くほど効果的なアプローチを採用しています。
まず、LLM のコンテキストを意識したプロンプトによってあいまいなトレーニング クエリを書き換えます。この場合、関連するドキュメントのみをコンテキストとして使用します。既存のアプローチとは異なり、トレーニング フェーズ中にのみ LLM ベースのクエリ書き換えを使用します。
最終的に、ランカーはトレーニング中に元のクエリではなく、書き換えられたクエリに基づいて微調整されます。
私たちの広範な実験では、再作成されたクエリを使用してランカーを微調整すると、使用した場合のベースライン パフォーマンスと比較して、パッセージ ランキング タスクで最大 33%、ドキュメント ランキング タスクで最大 28% の大幅な改善が見られることがわかりました。
オリジナルのクエリ。

要約(オリジナル)

Query rewriting refers to an established family of approaches that are applied to underspecified and ambiguous queries to overcome the vocabulary mismatch problem in document ranking. Queries are typically rewritten during query processing time for better query modelling for the downstream ranker. With the advent of large-language models (LLMs), there have been initial investigations into using generative approaches to generate pseudo documents to tackle this inherent vocabulary gap. In this work, we analyze the utility of LLMs for improved query rewriting for text ranking tasks. We find that there are two inherent limitations of using LLMs as query re-writers — concept drift when using only queries as prompts and large inference costs during query processing. We adopt a simple, yet surprisingly effective, approach called context aware query rewriting (CAR) to leverage the benefits of LLMs for query understanding. Firstly, we rewrite ambiguous training queries by context-aware prompting of LLMs, where we use only relevant documents as context.Unlike existing approaches, we use LLM-based query rewriting only during the training phase. Eventually, a ranker is fine-tuned on the rewritten queries instead of the original queries during training. In our extensive experiments, we find that fine-tuning a ranker using re-written queries offers a significant improvement of up to 33% on the passage ranking task and up to 28% on the document ranking task when compared to the baseline performance of using original queries.

arxiv情報

著者 Abhijit Anand,Venktesh V,Vinay Setty,Avishek Anand
発行日 2023-08-31 14:19:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク