A Thorough Examination on Zero-shot Dense Retrieval

要約

タイトル:ゼロショット・デンスリトリーバルに関する徹底検討
要約:
– 近年、PLMと呼ばれる強力な事前学習言語モデルに基づくデンスリトリーバル(DR)の大幅な進歩が見られています。
– DRモデルは、いくつかのベンチマークデータセットで優れた性能を発揮していますが、ゼロショット・リトリーバル設定では従来の疎リトリーバルモデル(例:BM25)ほど競争力があるとは言えないことが示されています。
– しかし、関連する文献では、ゼロショット・リトリーバルに関する詳細かつ包括的な研究がまだ欠けているとされています。
– この論文では、DRモデルのゼロショット能力の初めての徹底的な検討を行います。
– 我々は、ゼロショット・リトリーバルのパフォーマンスに影響を与えるいくつかの主要な要因を特定し、その影響を分析することを目的としています。特に、ソーストレーニングセットに関連するいくつかの主要な要因の影響、ターゲットデータセットからの潜在的なバイアスの分析、そして既存のゼロショットDRモデルのレビューと比較を行います。
– 我々の調査結果は、ゼロショットDRモデルをより理解し、開発するための重要な証拠を提供します。

要約(オリジナル)

Recent years have witnessed the significant advance in dense retrieval (DR) based on powerful pre-trained language models (PLM). DR models have achieved excellent performance in several benchmark datasets, while they are shown to be not as competitive as traditional sparse retrieval models (e.g., BM25) in a zero-shot retrieval setting. However, in the related literature, there still lacks a detailed and comprehensive study on zero-shot retrieval. In this paper, we present the first thorough examination of the zero-shot capability of DR models. We aim to identify the key factors and analyze how they affect zero-shot retrieval performance. In particular, we discuss the effect of several key factors related to source training set, analyze the potential bias from the target dataset, and review and compare existing zero-shot DR models. Our findings provide important evidence to better understand and develop zero-shot DR models.

arxiv情報

著者 Ruiyang Ren,Yingqi Qu,Jing Liu,Wayne Xin Zhao,Qifei Wu,Yuchen Ding,Hua Wu,Haifeng Wang,Ji-Rong Wen
発行日 2023-04-23 17:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR パーマリンク