Detrimental Contexts in Open-Domain Question Answering

要約

知識集約型の NLP タスクでは、より多くの情報にアクセスすることがモデルのエンドツーエンドのパフォーマンスの向上に寄与する要素であることが広く受け入れられています。
ただし、直観に反して、一般的な質問応答 (QA) データセットで評価する場合、コンテキストが多すぎるとモデルに悪影響を及ぼす可能性があります。
この論文では、質問応答で使用される検索後読み取りアーキテクチャにパッセージがどのように悪影響を及ぼす可能性があるかを分析します。
私たちの経験的証拠は、現在の読み取りアーキテクチャが取得したパッセージを十分に活用しておらず、パッセージ全体を使用すると、そのサブセットを使用する場合と比較してパフォーマンスが大幅に低下することを示しています。
私たちの調査結果は、有害なパッセージを除外することによって、2 つの一般的な QA データセットでモデルの精度を 10% 改善できることを示しています。
さらに、これらの結果は、追加のトレーニングやデータを必要とせずに、既存の検索方法を利用することによって達成されます。
さらに、有害な通路の特定に関連する課題にも焦点を当てます。
まず、コンテキストが正しい場合でも、モデルが誤った予測を行う可能性があり、どの文章が最も影響力があるかを判断する際に課題が生じます。
第 2 に、評価では通常、語彙一致が考慮されますが、これは正解の変動に対して堅牢ではありません。
これらの制限にもかかわらず、私たちの実験結果は、コンテキスト効率の高い取得から読み取りのパイプラインにとって、これらの有害なパッセージを特定して削除することが極めて重要な役割を果たしているということを強調しています。
コードとデータは https://github.com/xfactlab/emnlp2023-damaging-retrieval で入手できます。

要約(オリジナル)

For knowledge intensive NLP tasks, it has been widely accepted that accessing more information is a contributing factor to improvements in the model’s end-to-end performance. However, counter-intuitively, too much context can have a negative impact on the model when evaluated on common question answering (QA) datasets. In this paper, we analyze how passages can have a detrimental effect on retrieve-then-read architectures used in question answering. Our empirical evidence indicates that the current read architecture does not fully leverage the retrieved passages and significantly degrades its performance when using the whole passages compared to utilizing subsets of them. Our findings demonstrate that model accuracy can be improved by 10% on two popular QA datasets by filtering out detrimental passages. Additionally, these outcomes are attained by utilizing existing retrieval methods without further training or data. We further highlight the challenges associated with identifying the detrimental passages. First, even with the correct context, the model can make an incorrect prediction, posing a challenge in determining which passages are most influential. Second, evaluation typically considers lexical matching, which is not robust to variations of correct answers. Despite these limitations, our experimental results underscore the pivotal role of identifying and removing these detrimental passages for the context-efficient retrieve-then-read pipeline. Code and data are available at https://github.com/xfactlab/emnlp2023-damaging-retrieval

arxiv情報

著者 Philhoon Oh,James Thorne
発行日 2023-10-27 11:45:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク