SAFARI: Versatile and Efficient Evaluations for Robustness of Interpretability

要約

ディープラーニング (DL) の解釈可能性は、信頼できる AI の障害となります。
Explainable AI (XAI) コミュニティによる多大な努力にもかかわらず、説明には堅牢性が欠けており、区別できない入力の摂動によって異なる XAI 結果が生じる可能性があります。
したがって、XAI メソッドを考慮した場合、DL の解釈可能性がどの程度堅牢であるかを評価することが重要です。
このペーパーでは、最先端技術が集合的に対処できないいくつかの課題を特定します。 i) 既存の指標は包括的ではありません。
ii) XAI 技術は非常に異質です。
iii) 誤解は通常、まれな出来事です。
これらの課題に取り組むために、我々は、それぞれ最悪の場合の解釈の不一致と、一般にどの程度堅牢であるかについての確率的概念に関する 2 つのブラックボックス評価方法を導入します。
特注の適合関数を備えた遺伝的アルゴリズム (GA) を使用して、効率的なワーストケース評価のための制約付き最適化を解決します。
まれなイベントの確率の推定に特化したサブセット シミュレーション (SS) は、全体的な堅牢性の評価に使用されます。
実験によれば、私たちの方法の精度、感度、効率は最先端のものを上回っています。
最後に、私たちの方法の 2 つの応用例を示します。堅牢な XAI メソッドのランク付けと、分類と解釈の両方の堅牢性を向上させるトレーニング スキームの選択です。

要約(オリジナル)

Interpretability of Deep Learning (DL) is a barrier to trustworthy AI. Despite great efforts made by the Explainable AI (XAI) community, explanations lack robustness — indistinguishable input perturbations may lead to different XAI results. Thus, it is vital to assess how robust DL interpretability is, given an XAI method. In this paper, we identify several challenges that the state-of-the-art is unable to cope with collectively: i) existing metrics are not comprehensive; ii) XAI techniques are highly heterogeneous; iii) misinterpretations are normally rare events. To tackle these challenges, we introduce two black-box evaluation methods, concerning the worst-case interpretation discrepancy and a probabilistic notion of how robust in general, respectively. Genetic Algorithm (GA) with bespoke fitness function is used to solve constrained optimisation for efficient worst-case evaluation. Subset Simulation (SS), dedicated to estimate rare event probabilities, is used for evaluating overall robustness. Experiments show that the accuracy, sensitivity, and efficiency of our methods outperform the state-of-the-arts. Finally, we demonstrate two applications of our methods: ranking robust XAI methods and selecting training schemes to improve both classification and interpretation robustness.

arxiv情報

著者 Wei Huang,Xingyu Zhao,Gaojie Jin,Xiaowei Huang
発行日 2023-07-31 16:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク