Revisiting Dense Retrieval with Unanswerable Counterfactuals

要約

タイトル: 答えのない事実による密な検索の再検討
要約:
– リトリーバー・リーダー・フレームワークは、オープンドメインの質問応答(ODQA)において、リトリーバーが大規模なコーパスからリーダーに適切な候補出しをすることが一般的です。
– しかし、この方法の大前提は、リトリーバーからの高い相関スコアはリーダーが答えられる可能性が高いということです。しかしこの論文は、DPRに基づく最近の密な検索モデルは、時に答えのない反事実的な候補出しを答えを含む正しい候補出しよりも上位にランク付けすることを実証的に否定します。
– そのため、答えがない場合に対処するために、追加のトレーニングリソースとして反事実的サンプルを使用して、DPRの相関測定を質問 – 候補出しの答え可否とよりよく同期させるようにします。
– 具体的には、反事実的Hingeloss Count Pivoting (PiCL)という新しい表現学習アプローチを紹介し、学習された埋め込み空間で正ネガティブサンプルの間で反事実的サンプルを枢軸として利用するものです。
– PiCLをリトリーバーのトレーニングに取り入れ、ODQAベンチマークと学習されたモデルの強さを示しました。

要約(オリジナル)

The retriever-reader framework is popular for open-domain question answering (ODQA), where a retriever samples for the reader a set of relevant candidate passages from a large corpus. A key assumption behind this method is that high relevance scores from the retriever likely indicate high answerability from the reader, which implies a high probability that the retrieved passages contain answers to a given question. In this work, we empirically dispel this belief and observe that recent dense retrieval models based on DPR often rank unanswerable counterfactual passages higher than their answerable original passages. To address such answer-unawareness in dense retrievers, we seek to use counterfactual samples as additional training resources to better synchronize the relevance measurement of DPR with the answerability of question-passage pairs. Specifically, we present counterfactually-Pivoting Contrastive Learning (PiCL), a novel representation learning approach for passage retrieval that leverages counterfactual samples as pivots between positive and negative samples in their learned embedding space. We incorporate PiCL into the retriever training to show the effectiveness of PiCL on ODQA benchmarks and the robustness of the learned models.

arxiv情報

著者 Yongho Song,Dahyun Lee,Kyungjae Lee,Jinyeong Yeo
発行日 2023-04-12 11:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI パーマリンク