MASALA: Model-Agnostic Surrogate Explanations by Locality Adaptation


LIME などの既存のローカル Explainable AI (XAI) メソッドは、特定の入力インスタンスの近くの入力空間の領域を選択し、よりシンプルで解釈可能なサロゲート モデルを使用してモデルの動作を近似します。
我々は、説明を生成するための新しい方法 MASALA を提案します。この方法は、説明される個々のインスタンスに対して、影響力のあるモデルの動作の適切な局所領域を自動的に決定します。
MASALA は、類似したモデルの動作を経験する点のセットに線形代理モデルを当てはめることにより、複雑なモデルで使用される局所的な動作を近似して予測を行います。
私たちの方法によって生成された説明の忠実性と一貫性を、既存のローカル XAI 方法、つまり LIME および CHILLI と比較します。
PHM08 および MIDAS データセットの実験では、私たちの方法が、機密性の高い局所性ハイパーパラメーターを定義する必要がなく、既存の方法よりも忠実で一貫した説明を生成することが示されています。


Existing local Explainable AI (XAI) methods, such as LIME, select a region of the input space in the vicinity of a given input instance, for which they approximate the behaviour of a model using a simpler and more interpretable surrogate model. The size of this region is often controlled by a user-defined locality hyperparameter. In this paper, we demonstrate the difficulties associated with defining a suitable locality size to capture impactful model behaviour, as well as the inadequacy of using a single locality size to explain all predictions. We propose a novel method, MASALA, for generating explanations, which automatically determines the appropriate local region of impactful model behaviour for each individual instance being explained. MASALA approximates the local behaviour used by a complex model to make a prediction by fitting a linear surrogate model to a set of points which experience similar model behaviour. These points are found by clustering the input space into regions of linear behavioural trends exhibited by the model. We compare the fidelity and consistency of explanations generated by our method with existing local XAI methods, namely LIME and CHILLI. Experiments on the PHM08 and MIDAS datasets show that our method produces more faithful and consistent explanations than existing methods, without the need to define any sensitive locality hyperparameters.


著者 Saif Anwar,Nathan Griffiths,Abhir Bhalerao,Thomas Popham
発行日 2024-08-19 15:26:45+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.LG パーマリンク