Easy to Decide, Hard to Agree: Reducing Disagreements Between Saliency Methods

要約

ニューラル NLP モデルのブラック ボックスを明らかにするための一般的なアプローチは、各入力コンポーネントにスカラー重要度スコアを割り当てる顕著性メソッドを活用することです。
解釈可能性の方法が忠実でもっともらしいかどうかを評価するための一般的な方法は、合意による評価を使用することでした。説明に同意する複数の方法は、その信頼性を高めます。
ただし、最近の研究では、顕著性メソッドでさえランク相関が弱いことがわかっており、代替の診断方法の使用が提唱されています。
私たちの研究では、ランク相関は一致を評価するのに適していないことを示し、Pearson-$r$ がより適切な代替手段であると主張します。
注意の説明の忠実性を高める正則化手法は、顕著性メソッド間の一致も増加させることを示します。
調査結果をトレーニング ダイナミクスに基づいてインスタンス カテゴリに関連付けることで、驚くべきことに、学習しやすいインスタンスは、顕著性メソッドの説明において一致度が低いことを示しています。

要約(オリジナル)

A popular approach to unveiling the black box of neural NLP models is to leverage saliency methods, which assign scalar importance scores to each input component. A common practice for evaluating whether an interpretability method is faithful and plausible has been to use evaluation-by-agreement — multiple methods agreeing on an explanation increases its credibility. However, recent work has found that even saliency methods have weak rank correlations and advocated for the use of alternative diagnostic methods. In our work, we demonstrate that rank correlation is not a good fit for evaluating agreement and argue that Pearson-$r$ is a better suited alternative. We show that regularization techniques that increase faithfulness of attention explanations also increase agreement between saliency methods. Through connecting our findings to instance categories based on training dynamics we show that, surprisingly, easy-to-learn instances exhibit low agreement in saliency method explanations.

arxiv情報

著者 Josip Jukić,Martin Tutek,Jan Šnajder
発行日 2023-02-16 10:49:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク