Goodhart’s Law Applies to NLP’s Explanation Benchmarks

要約

顕著性に基づく説明の人気が高まっているにもかかわらず、研究コミュニティは依然として行き詰まり、それらの目的、有効性、および相互に矛盾する傾向に関する疑問に直面しています。
共通の目標に向けてコミュニティの取り組みを団結させようとして、いくつかの最近の研究で評価指標が提案されています。
この論文では、自然言語処理に焦点を当てて、ERASER メトリクス (包括性と十分性) と EVAL-X メトリクスの 2 つのメトリクス セットを批判的に検証します。
まず、分布内テスト入力に関する予測や説明を変更することなく、モデルの包括性と十分性のスコアを劇的に引き上げることができることを示します。
私たちの戦略は、抽出された説明とその補足が相互および配布中の入力と比較して「サポート外」になる傾向を利用します。
次に、EVAL-X がそのような悪用に対処することを正確に意図しているにもかかわらず、ラベルをエンコードする単純な方法によって EVAL-X メトリクスを任意にインフレートできることを示します。
私たちの結果は、現在の指標が説明可能性研究を導く能力に疑問を投げかけており、これらの指標が正確に何を捉えることを意図しているのかをより広範に再評価する必要性を強調しています。

要約(オリジナル)

Despite the rising popularity of saliency-based explanations, the research community remains at an impasse, facing doubts concerning their purpose, efficacy, and tendency to contradict each other. Seeking to unite the community’s efforts around common goals, several recent works have proposed evaluation metrics. In this paper, we critically examine two sets of metrics: the ERASER metrics (comprehensiveness and sufficiency) and the EVAL-X metrics, focusing our inquiry on natural language processing. First, we show that we can inflate a model’s comprehensiveness and sufficiency scores dramatically without altering its predictions or explanations on in-distribution test inputs. Our strategy exploits the tendency for extracted explanations and their complements to be ‘out-of-support’ relative to each other and in-distribution inputs. Next, we demonstrate that the EVAL-X metrics can be inflated arbitrarily by a simple method that encodes the label, even though EVAL-X is precisely motivated to address such exploits. Our results raise doubts about the ability of current metrics to guide explainability research, underscoring the need for a broader reassessment of what precisely these metrics are intended to capture.

arxiv情報

著者 Jennifer Hsia,Danish Pruthi,Aarti Singh,Zachary C. Lipton
発行日 2023-08-28 03:03:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク