Locally Invariant Explanations: Towards Stable and Unidirectional Explanations through Local Invariant Learning

要約

Locally interpretable model agnostic explanations (LIME)法は、ブラックボックスモデルを例毎に説明するために用いられる最も一般的な手法の一つである。これまで多くの手法が提案されてきたが、安定かつ直感的で、忠実度の高い説明を簡単に作成できる手法はほとんどない。本研究では、モデル非依存的な局所説明法を提案することで、新たな視点を提供する。このような高忠実度説明を提供するために、元々は(大域的な)分布外汎化のために提案された、不変リスク最小化(IRM)原理に触発された。我々の方法はゲーム理論的な定式化に基づいており、我々のアプローチは、ブラックボックス関数の勾配が説明したい例の局所性において符号が急激に変化する特徴を排除する強い傾向があることを理論的に示す。経験的に、我々は表、画像、テキストデータにおいて、ランダムな摂動を使って形成された近傍を使った我々の説明の質は、LIMEよりもはるかに優れており、場合によってはデータ多様体からサンプリングされた現実的な近傍を使った他の手法に匹敵することさえあることを示す。このことは、現実的な近傍を作成するため、あるいは説明を投影するために多様体を学習することは、一般的に高価であるか、あるいは不可能でさえあることを考えると望ましい。さらに、我々のアルゴリズムは訓練が簡単で効率的であり、最近の研究で見られるような(部分的な)因果グラフのようなサイド情報にアクセスすることなく、ブラックボックスの局所的判断のための安定した入力特徴を確認することができる。

要約(オリジナル)

Locally interpretable model agnostic explanations (LIME) method is one of the most popular methods used to explain black-box models at a per example level. Although many variants have been proposed, few provide a simple way to produce high fidelity explanations that are also stable and intuitive. In this work, we provide a novel perspective by proposing a model agnostic local explanation method inspired by the invariant risk minimization (IRM) principle — originally proposed for (global) out-of-distribution generalization — to provide such high fidelity explanations that are also stable and unidirectional across nearby examples. Our method is based on a game theoretic formulation where we theoretically show that our approach has a strong tendency to eliminate features where the gradient of the black-box function abruptly changes sign in the locality of the example we want to explain, while in other cases it is more careful and will choose a more conservative (feature) attribution, a behavior which can be highly desirable for recourse. Empirically, we show on tabular, image and text data that the quality of our explanations with neighborhoods formed using random perturbations are much better than LIME and in some cases even comparable to other methods that use realistic neighbors sampled from the data manifold. This is desirable given that learning a manifold to either create realistic neighbors or to project explanations is typically expensive or may even be impossible. Moreover, our algorithm is simple and efficient to train, and can ascertain stable input features for local decisions of a black-box without access to side information such as a (partial) causal graph as has been seen in some recent works.

arxiv情報

著者 Amit Dhurandhar,Karthikeyan Ramamurthy,Kartik Ahuja,Vijay Arya
発行日 2023-10-03 13:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク