要約
最近の研究では、科学的領域におけるLLM、すなわちRAGの生成において、知識ギャップを埋めることによる文書検索の重要性が高まっていることが示されている。しかし、高密度な検索は、特にクエリセグメントが文書の様々な部分に対応する場合、ドメイン固有の検索や複雑なクエリと文書の関係に苦労することが多い。このような一般的な課題を軽減するために、本論文では、ゼロショット・アプローチを用いて、クエリと文書の様々な粒度レベルにわたるクエリと文書のマッチングに対する密な検索者の認識を改善する$texttt{MixGR}$を紹介する。texttt{MixGR}$は、これらの粒度に基づく様々なメトリクスを、包括的なクエリと文書の類似度を反映する統一されたスコアに融合する。我々の実験により、$texttt{MixGR}$は、nDCG@5において、教師なし、教師あり、LLMベースの検索器を用いて、5つの科学的検索データセットから複数のサブクエリを含むクエリを平均して、それぞれ24.7%、9.8%、6.9%従来の文書検索を上回ることが実証された。さらに、2つの下流の科学的な質問応答タスクの有効性から、科学的な領域でLLMの応用を促進する$texttt{MixGR}$の優位性が明らかになった。コードと実験データセットを公開する。
要約(オリジナル)
Recent studies show the growing significance of document retrieval in the generation of LLMs, i.e., RAG, within the scientific domain by bridging their knowledge gap. However, dense retrievers often struggle with domain-specific retrieval and complex query-document relationships, particularly when query segments correspond to various parts of a document. To alleviate such prevalent challenges, this paper introduces $\texttt{MixGR}$, which improves dense retrievers’ awareness of query-document matching across various levels of granularity in queries and documents using a zero-shot approach. $\texttt{MixGR}$ fuses various metrics based on these granularities to a united score that reflects a comprehensive query-document similarity. Our experiments demonstrate that $\texttt{MixGR}$ outperforms previous document retrieval by 24.7%, 9.8%, and 6.9% on nDCG@5 with unsupervised, supervised, and LLM-based retrievers, respectively, averaged on queries containing multiple subqueries from five scientific retrieval datasets. Moreover, the efficacy of two downstream scientific question-answering tasks highlights the advantage of $\texttt{MixGR}$ to boost the application of LLMs in the scientific domain. The code and experimental datasets are available.
arxiv情報
著者 | Fengyu Cai,Xinran Zhao,Tong Chen,Sihao Chen,Hongming Zhang,Iryna Gurevych,Heinz Koeppl |
発行日 | 2024-11-01 14:08:31+00:00 |
arxivサイト | arxiv_id(pdf) |