Which Spurious Correlations Impact Reasoning in NLI Models? A Visual Interactive Diagnosis through Data-Constrained Counterfactuals

要約

NLI モデルが予測に依存する潜在的な偽の特徴を診断するために調整された人間参加型のダッシュボードを紹介します。
ダッシュボードを使用すると、ユーザーは GPT-3 の提案からインスピレーションを得て、多様で挑戦的な例を生成できます。
さらに、ユーザーは、トレーニングされた NLI モデルから、新しく作成されたサンプルがどれほど難しいかに関するフィードバックを受け取り、フィードバックに基づいて改良を加えることができます。
調査を通じて、NLI モデルの推論に影響を与えるいくつかのカテゴリの偽の相関関係を発見しました。これらは、意味的関連性、論理的誤り、バイアスの 3 つのカテゴリに分類されます。
私たちの調査結果に基づいて、トレーニング データの多様化や敵対的テスト スイートの作成による NLI モデルの堅牢性の評価など、さまざまな研究の機会を特定して説明します。

要約(オリジナル)

We present a human-in-the-loop dashboard tailored to diagnosing potential spurious features that NLI models rely on for predictions. The dashboard enables users to generate diverse and challenging examples by drawing inspiration from GPT-3 suggestions. Additionally, users can receive feedback from a trained NLI model on how challenging the newly created example is and make refinements based on the feedback. Through our investigation, we discover several categories of spurious correlations that impact the reasoning of NLI models, which we group into three categories: Semantic Relevance, Logical Fallacies, and Bias. Based on our findings, we identify and describe various research opportunities, including diversifying training data and assessing NLI models’ robustness by creating adversarial test suites.

arxiv情報

著者 Robin Chan,Afra Amini,Mennatallah El-Assady
発行日 2023-06-21 09:50:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク