Easy to Decide, Hard to Agree: Reducing Disagreements Between Saliency Methods

要約

ニューラルNLPモデルのブラックボックスを解明するための一般的なアプローチは、各入力要素にスカラー重要度スコアを割り当てるサリエンシー法を活用することである。解釈可能な手法が忠実であるかどうかを評価するための一般的な方法は、複数の手法がある説明に同意すれば、その信頼性が高まるという「同意による評価」を用いることであった。しかし、最近の研究では、同じモデルインスタンスに適用した場合でも、顕著性手法が弱い順位相関を示すことを発見し、別の診断方法を使用することを提唱している。本研究では、順位相関が一致度を評価するのに適していないことを示し、Pearson-$r$がより適した代替法であることを主張する。さらに、注意の説明の忠実度を高める正則化技術が、顕著性手法間の一致度を高めることを示す。また、訓練力学に基づくインスタンスカテゴリと関連付けることで、学習しやすいインスタンスでは、顕著性手法の説明の一致度が非常に低くなることを示す。最後に、インスタンスカテゴリ間の一致度の向上をインスタンスの局所的な表現空間統計と結びつけ、どのような内在的なモデル特性が解釈可能手法への素因を向上させるかを分析する作業への道を開くことができた。

要約(オリジナル)

A popular approach to unveiling the black box of neural NLP models is to leverage saliency methods, which assign scalar importance scores to each input component. A common practice for evaluating whether an interpretability method is faithful has been to use evaluation-by-agreement — if multiple methods agree on an explanation, its credibility increases. However, recent work has found that saliency methods exhibit weak rank correlations even when applied to the same model instance and advocated for the use of alternative diagnostic methods. In our work, we demonstrate that rank correlation is not a good fit for evaluating agreement and argue that Pearson-$r$ is a better-suited alternative. We further show that regularization techniques that increase faithfulness of attention explanations also increase agreement between saliency methods. By connecting our findings to instance categories based on training dynamics, we show that the agreement of saliency method explanations is very low for easy-to-learn instances. Finally, we connect the improvement in agreement across instance categories to local representation space statistics of instances, paving the way for work on analyzing which intrinsic model properties improve their predisposition to interpretability methods.

arxiv情報

著者 Josip Jukić,Martin Tutek,Jan Šnajder
発行日 2023-05-11 11:37:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク