$\texttt{MixGR}$: Enhancing Retriever Generalization for Scientific Domain through Complementary Granularity

要約

最近の研究では、科学分野におけるLLM、つまりRAGの生成において、知識のギャップを埋めることによる文書検索の重要性が高まっていることが示されています。
ただし、密な検索では、特にクエリ セグメントがドキュメントのさまざまな部分に対応する場合、ドメイン固有の検索や複雑なクエリとドキュメントの関係に苦労することがよくあります。
このような一般的な課題を軽減するために、この論文では $\texttt{MixGR}$ を導入します。これにより、ゼロショット アプローチを使用して、クエリとドキュメントのさまざまな粒度レベルにわたるクエリとドキュメントの一致に対するデンス リトリーバーの認識が向上します。
$\texttt{MixGR}$ は、これらの粒度に基づいてさまざまな指標を統合し、包括的なクエリとドキュメントの類似性を反映する統一スコアを作成します。
私たちの実験では、$\texttt{MixGR}$ が、5 つの科学検索データセットからの複数のサブクエリを含むクエリの平均で、教師なし検索者と教師あり検索者を使用した nDCG@5 で、それぞれ 24.7% と 9.8% 優れた以前の文書検索のパフォーマンスを上回っていることが実証されました。
さらに、2 つの下流の科学的質問応答タスクの有効性は、科学分野での LLM の適用を促進する $\texttt{MixGR}$ の利点を強調しています。

要約(オリジナル)

Recent studies show the growing significance of document retrieval in the generation of LLMs, i.e., RAG, within the scientific domain by bridging their knowledge gap. However, dense retrievers often struggle with domain-specific retrieval and complex query-document relationships, particularly when query segments correspond to various parts of a document. To alleviate such prevalent challenges, this paper introduces $\texttt{MixGR}$, which improves dense retrievers’ awareness of query-document matching across various levels of granularity in queries and documents using a zero-shot approach. $\texttt{MixGR}$ fuses various metrics based on these granularities to a united score that reflects a comprehensive query-document similarity. Our experiments demonstrate that $\texttt{MixGR}$ outperforms previous document retrieval by 24.7% and 9.8% on nDCG@5 with unsupervised and supervised retrievers, respectively, averaged on queries containing multiple subqueries from five scientific retrieval datasets. Moreover, the efficacy of two downstream scientific question-answering tasks highlights the advantage of $\texttt{MixGR}$to boost the application of LLMs in the scientific domain.

arxiv情報

著者 Fengyu Cai,Xinran Zhao,Tong Chen,Sihao Chen,Hongming Zhang,Iryna Gurevych,Heinz Koeppl
発行日 2024-07-15 13:04:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク