Crafting the Path: Robust Query Rewriting for Information Retrieval

要約

クエリの書き換えは、元のクエリを補完できる新しいクエリを生成して、情報検索システムを改善することを目的としています。
query2doc (Q2D)、query2expand (Q2E)、querey2cot (Q2C) などのクエリ書き換えに関する最近の研究は、大規模言語モデル (LLM) の内部知識に依存して、クエリに情報を追加するための関連するパッセージを生成します。
それにもかかわらず、必要な知識がモデルの固有パラメータ内にカプセル化されていない場合、これらの方法論の有効性は著しく低下する可能性があります。
この論文では、検索システムに合わせた Crafting the Path と呼ばれる新しい構造化クエリ書き換え手法を提案します。
パスの作成には、各ステップで検索対象のパッセージを見つけるために必要なクエリ関連情報を作成する 3 つのステップのプロセスが含まれます。
具体的には、パスの作成はクエリ概念の理解から始まり、クエリ タイプの識別に進み、最後に期待される回答の抽出を実行します。
実験結果は、特に LLM にとってあまり馴染みのない領域において、私たちの方法が以前の書き換え方法よりも優れていることを示しています。
私たちの方法がモデルの内部パラメーターの知識にあまり依存せず、事実の不正確さが少ないクエリを生成することを示します。
さらに、パスの作成ではベースラインと比較してレイテンシーが少ないことがわかります。

要約(オリジナル)

Query rewriting aims to generate a new query that can complement the original query to improve the information retrieval system. Recent studies on query rewriting, such as query2doc (Q2D), query2expand (Q2E) and querey2cot (Q2C), rely on the internal knowledge of Large Language Models (LLMs) to generate a relevant passage to add information to the query. Nevertheless, the efficacy of these methodologies may markedly decline in instances where the requisite knowledge is not encapsulated within the model’s intrinsic parameters. In this paper, we propose a novel structured query rewriting method called Crafting the Path tailored for retrieval systems. Crafting the Path involves a three-step process that crafts query-related information necessary for finding the passages to be searched in each step. Specifically, the Crafting the Path begins with Query Concept Comprehension, proceeds to Query Type Identification, and finally conducts Expected Answer Extraction. Experimental results show that our method outperforms previous rewriting methods, especially in less familiar domains for LLMs. We demonstrate that our method is less dependent on the internal parameter knowledge of the model and generates queries with fewer factual inaccuracies. Furthermore, we observe that Crafting the Path has less latency compared to the baselines.

arxiv情報

著者 Ingeol Baek,Jimin Lee,Joonho Yang,Hwanhee Lee
発行日 2024-07-17 13:11:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク