Evaluating Paraphrastic Robustness in Textual Entailment Models

要約

モデルが言い換えに対して堅牢であるかどうかを評価するための、テキスト含意認識 (RTE) の例の 1,126 ペアのコレクションである PaRTE を紹介します。
RTE モデルが言語を理解する場合、その予測は同じ意味を共有する入力全体で一貫しているはずだと仮定します。
評価セットを使用して、例が言い換えられたときに RTE モデルの予測が変化するかどうかを判断します。
私たちの実験では、現代のモデルは言い換えられた例の 8 ~ 16% で予測を変更し、まだ改善の余地があることを示しています。

要約(オリジナル)

We present PaRTE, a collection of 1,126 pairs of Recognizing Textual Entailment (RTE) examples to evaluate whether models are robust to paraphrasing. We posit that if RTE models understand language, their predictions should be consistent across inputs that share the same meaning. We use the evaluation set to determine if RTE models’ predictions change when examples are paraphrased. In our experiments, contemporary models change their predictions on 8-16\% of paraphrased examples, indicating that there is still room for improvement.

arxiv情報

著者 Dhruv Verma,Yash Kumar Lal,Shreyashee Sinha,Benjamin Van Durme,Adam Poliak
発行日 2023-06-29 06:48:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク