Noisy Pair Corrector for Dense Retrieval

要約

ほとんどの高密度検索モデルには、トレーニング クエリとドキュメントのペアが正確に一致するという暗黙の仮定が含まれています。
コーパスに手動で注釈を付けるのはコストがかかるため、実際のアプリケーションでは通常、トレーニング ペアが自動的に収集され、必然的に不一致ペア ノイズが発生します。
この論文では、不一致ペアのノイズを使用して効果的なモデルをトレーニングする方法という、密な検索における興味深く難しい問題を検討します。
この問題を解決するために、検出モジュールと補正モジュールで構成されるノイズ ペア コレクター (NPC) と呼ばれる新しいアプローチを提案します。
検出モジュールは、注釈付きポジティブ文書とイージーネガティブ文書間のパープレキシティを計算することにより、ノイズペアを推定します。
補正モジュールは指数移動平均 (EMA) モデルを利用してソフト教師信号を提供し、ノイズの影響を軽減します。
テキスト検索ベンチマークの Natural Question と TriviaQA、コード検索ベンチマークの StaQC と SO-DS の実験を行っています。
実験結果は、NPC が合成ノイズと現実的なノイズの両方の処理において優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

Most dense retrieval models contain an implicit assumption: the training query-document pairs are exactly matched. Since it is expensive to annotate the corpus manually, training pairs in real-world applications are usually collected automatically, which inevitably introduces mismatched-pair noise. In this paper, we explore an interesting and challenging problem in dense retrieval, how to train an effective model with mismatched-pair noise. To solve this problem, we propose a novel approach called Noisy Pair Corrector (NPC), which consists of a detection module and a correction module. The detection module estimates noise pairs by calculating the perplexity between annotated positive and easy negative documents. The correction module utilizes an exponential moving average (EMA) model to provide a soft supervised signal, aiding in mitigating the effects of noise. We conduct experiments on text-retrieval benchmarks Natural Question and TriviaQA, code-search benchmarks StaQC and SO-DS. Experimental results show that NPC achieves excellent performance in handling both synthetic and realistic noise.

arxiv情報

著者 Hang Zhang,Yeyun Gong,Xingwei He,Dayiheng Liu,Daya Guo,Jiancheng Lv,Jian Guo
発行日 2023-11-07 08:27:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク