Post-Abstention: Towards Reliably Re-Attempting the Abstained Instances in QA

要約

タイトル:Post-Abstention: Towards Reliably Re-Attempting the Abstained Instances in QA

要約:
– 自然言語処理における驚くべき進歩があるにもかかわらず、最新のモデルでさえも誤った予測をすることがしばしばある。
– これらの誤った予測はシステムの信頼性を損ない、現実世界のアプリケーションにおける広範な採用を制限する。
– 「選択的予測」は、予測が不正確であると予測される場合には回答を控えることで、上記の懸念の一部を解決することができる。
– 選択的予測は有利であるが、「控えた後、何をすべきか」という重要な問題が残る。
– この問題に対応するために、本研究では「Post-Abstention」というタスクについての探索的な研究を行い、控えられたインスタンスを再試行することで、システムの「正確性」を大幅に犠牲にすることなく、「カバレッジ」を向上させることを目指す。
– まず、このタスクの数学的定式化を提供し、いくつかの解決方法を探求する。
– 11つのQAデータセットでの包括的な実験結果は、これらの方法がドメイン内外の両方において、Post-Abstentionタスクの性能指標である「リスクの改善」につながることを示している。
– また、これらの結果について詳細な分析を行い、いくつかの興味深い発見を導き出す。
– 最後に、私たちは、NLPシステムの信頼性に対処するこの重要な分野において、さらなる研究を促進し、容易にすると信じています。

要約(オリジナル)

Despite remarkable progress made in natural language processing, even the state-of-the-art models often make incorrect predictions. Such predictions hamper the reliability of systems and limit their widespread adoption in real-world applications. ‘Selective prediction’ partly addresses the above concern by enabling models to abstain from answering when their predictions are likely to be incorrect. While selective prediction is advantageous, it leaves us with a pertinent question ‘what to do after abstention’. To this end, we present an explorative study on ‘Post-Abstention’, a task that allows re-attempting the abstained instances with the aim of increasing ‘coverage’ of the system without significantly sacrificing its ‘accuracy’. We first provide mathematical formulation of this task and then explore several methods to solve it. Comprehensive experiments on 11 QA datasets show that these methods lead to considerable risk improvements — performance metric of the Post-Abstention task — both in the in-domain and the out-of-domain settings. We also conduct a thorough analysis of these results which further leads to several interesting findings. Finally, we believe that our work will encourage and facilitate further research in this important area of addressing the reliability of NLP systems.

arxiv情報

著者 Neeraj Varshney,Chitta Baral
発行日 2023-05-02 22:40:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク