Promoting Counterfactual Robustness through Diversity

要約

反事実的な説明は、モデルから有利な決定を得るために入力をどのように変更できるかを説明することによって、ブラックボックス モデルの決定に光を当てます(たとえば、ローン申請が拒否された場合)。
しかし、最近指摘されたように、反事実的な説明者は、入力の小さな変更が説明に大きな変更を引き起こす可能性があるという意味で堅牢性に欠ける可能性があります。
これはユーザー側で混乱を引き起こし、敵対的な攻撃の扉を開く可能性があります。
この論文では、非ロバスト性のいくつかの原因を研究します。
単一の反事実を返す説明子がすべてのインスタンスで堅牢であることができない根本的な理由はありますが、単一の反事実ではなく複数の反事実を報告することによって、いくつかの興味深い堅牢性が保証されることを示します。
残念ながら、理論的な保証を維持するために報告する必要がある反事実の数は、法外に膨大になる可能性があります。
したがって、我々は、多様性基準を使用して最も関連性の高い説明を実行可能な数選択し、その堅牢性を経験的に研究する近似アルゴリズムを提案します。
私たちの実験は、私たちの方法が他の望ましい特性を維持し、競争力のある計算パフォーマンスを提供しながら、ロバストな説明を生成する点で最先端を改善していることを示しています。

要約(オリジナル)

Counterfactual explanations shed light on the decisions of black-box models by explaining how an input can be altered to obtain a favourable decision from the model (e.g., when a loan application has been rejected). However, as noted recently, counterfactual explainers may lack robustness in the sense that a minor change in the input can cause a major change in the explanation. This can cause confusion on the user side and open the door for adversarial attacks. In this paper, we study some sources of non-robustness. While there are fundamental reasons for why an explainer that returns a single counterfactual cannot be robust in all instances, we show that some interesting robustness guarantees can be given by reporting multiple rather than a single counterfactual. Unfortunately, the number of counterfactuals that need to be reported for the theoretical guarantees to hold can be prohibitively large. We therefore propose an approximation algorithm that uses a diversity criterion to select a feasible number of most relevant explanations and study its robustness empirically. Our experiments indicate that our method improves the state-of-the-art in generating robust explanations, while maintaining other desirable properties and providing competitive computational performance.

arxiv情報

著者 Francesco Leofante,Nico Potyka
発行日 2023-12-12 08:09:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク