要約
クエリ拡張は、追加のクエリ用語を使用してユーザーの情報ニーズをより適切に表現するために、多くの検索システムで一般的に使用される手法です。
このタスクに関する既存の研究では、通常、取得または生成されたコンテキスト ドキュメントを使用してクエリを拡張することが提案されています。
ただし、どちらのタイプの方法にも明らかな制限があります。
検索ベースの方法の場合、元のクエリで取得されたドキュメントは、特にクエリが簡潔または曖昧な場合、検索意図を明らかにできるほど正確ではない可能性があります。
世代ベースの方法では、コーパス固有のラベル付きデータが不足しているため、既存のモデルを特定のコーパスでトレーニングしたり位置合わせしたりすることはほとんどできません。
この論文では、前述の制限を軽減する、クエリ拡張のための新しい大規模言語モデル (LLM) ベースの相互検証フレームワークを提案します。
具体的には、まずクエリ-クエリ-ドキュメント生成パイプラインを設計します。これにより、LLM にエンコードされたコンテキスト知識を効果的に活用して、複数の観点からサブクエリと対応するドキュメントを生成できます。
次に、生成された文脈文書と取得された文脈文書の両方に対して相互検証方法を採用します。1) 取得された文書は、生成された文書内の外部文脈知識でフィルタリングされ、2) 生成された文書は、取得された文書内のコーパス固有の知識でフィルタリングされます。
全体として、提案された方法により、取得および生成されたドキュメントが相互に補完し、より適切なクエリ拡張を完成させることができます。
私たちは、TREC-DL-2020、TREC-COVID、MSMARCO という 3 つの情報検索データセットに対して広範な実験を行っています。
結果は、私たちの方法が他のベースラインよりも大幅に優れていることを示しています。
要約(オリジナル)
Query expansion is a commonly-used technique in many search systems to better represent users’ information needs with additional query terms. Existing studies for this task usually propose to expand a query with retrieved or generated contextual documents. However, both types of methods have clear limitations. For retrieval-based methods, the documents retrieved with the original query might not be accurate enough to reveal the search intent, especially when the query is brief or ambiguous. For generation-based methods, existing models can hardly be trained or aligned on a particular corpus, due to the lack of corpus-specific labeled data. In this paper, we propose a novel Large Language Model (LLM) based mutual verification framework for query expansion, which alleviates the aforementioned limitations. Specifically, we first design a query-query-document generation pipeline, which can effectively leverage the contextual knowledge encoded in LLMs to generate sub-queries and corresponding documents from multiple perspectives. Next, we employ a mutual verification method for both generated and retrieved contextual documents, where 1) retrieved documents are filtered with the external contextual knowledge in generated documents, and 2) generated documents are filtered with the corpus-specific knowledge in retrieved documents. Overall, the proposed method allows retrieved and generated documents to complement each other to finalize a better query expansion. We conduct extensive experiments on three information retrieval datasets, i.e., TREC-DL-2020, TREC-COVID, and MSMARCO. The results demonstrate that our method outperforms other baselines significantly.
arxiv情報
著者 | Pengyue Jia,Yiding Liu,Xiangyu Zhao,Xiaopeng Li,Changying Hao,Shuaiqiang Wang,Dawei Yin |
発行日 | 2023-10-29 16:04:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google