Provably Robust and Plausible Counterfactual Explanations for Neural Networks via Robust Optimisation

要約

反実仮想的説明(Counterfactual Explanations:CE)は、ニューラルネットワーク分類器を説明するための主要な方法論として関心が高まっている。通常、入力と出力のペアに対するCEは、入力との距離が最小で、出力とは異なるラベルで分類されたデータ点として定義される。モデルのパラメータが更新される(例えば再トレーニングされる)とCEが簡単に無効になってしまうという確立された問題に取り組むため、ノルムボールで囲まれたモデルパラメータの変更に対するCEの頑健性を証明する方法が提案されている。しかし、このようなロバスト性をターゲットとする既存の手法は、健全でも完全でもなく、あり得ないCE、すなわち訓練データセットに対する外れ値を生成する可能性がある。実際、ロバスト性の保証を維持しながら、近接性と妥当性を同時に最適化する既存の手法は存在しない。本研究では、ロバスト最適化技術を活用し、前述の文献の限界に対処する手法であるProvably RObust and PLAusible Counterfactual Explanations (PROPLACE)を提案する。我々は、証明可能なロバストCEを計算する反復アルゴリズムを定式化し、その収束性、健全性、完全性を証明する。6つのベースライン(そのうち5つはロバスト性をターゲットとする)を含む比較実験を通じて、PROPLACEが3つの評価側面に関するメトリクスに対して最先端の性能を達成することを示す。

要約(オリジナル)

Counterfactual Explanations (CEs) have received increasing interest as a major methodology for explaining neural network classifiers. Usually, CEs for an input-output pair are defined as data points with minimum distance to the input that are classified with a different label than the output. To tackle the established problem that CEs are easily invalidated when model parameters are updated (e.g. retrained), studies have proposed ways to certify the robustness of CEs under model parameter changes bounded by a norm ball. However, existing methods targeting this form of robustness are not sound or complete, and they may generate implausible CEs, i.e., outliers wrt the training dataset. In fact, no existing method simultaneously optimises for closeness and plausibility while preserving robustness guarantees. In this work, we propose Provably RObust and PLAusible Counterfactual Explanations (PROPLACE), a method leveraging on robust optimisation techniques to address the aforementioned limitations in the literature. We formulate an iterative algorithm to compute provably robust CEs and prove its convergence, soundness and completeness. Through a comparative experiment involving six baselines, five of which target robustness, we show that PROPLACE achieves state-of-the-art performances against metrics on three evaluation aspects.

arxiv情報

著者 Junqi Jiang,Jianglin Lan,Francesco Leofante,Antonio Rago,Francesca Toni
発行日 2024-04-04 15:29:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク