要約
反事実の説明では、トレーニングされた分類器の結果を反転するために特徴ベクトルを変更する方法について説明します。
有効なアルゴリズムの手段と有意義な説明を提供するには、堅牢な反事実の説明を取得することが不可欠です。
私たちは、トレーニング データが固定されている場合でも、常にアルゴリズムの不確実性の影響を受けるランダム化アンサンブルの説明の堅牢性を研究します。
我々は、堅牢な反事実説明の生成を確率論的問題として形式化し、アンサンブル モデルの堅牢性と基本学習器の堅牢性の間の関連性を示します。
私たちは、優れた経験的パフォーマンスを備えた実用的な手法を開発し、凸基底学習器のアンサンブルに対する理論的保証によってそれをサポートします。
私たちの結果は、既存の手法の堅牢性が驚くほど低いことを示しています。単純な反事実の妥当性は、ほとんどのデータ セットで $50\%$ 未満ですが、多くの特徴を伴う問題では $20\%$ に低下する可能性があります。
対照的に、私たちの方法は、反事実の説明から最初の観察までの距離がわずかに増加するだけで、高いロバスト性を達成します。
要約(オリジナル)
Counterfactual explanations describe how to modify a feature vector in order to flip the outcome of a trained classifier. Obtaining robust counterfactual explanations is essential to provide valid algorithmic recourse and meaningful explanations. We study the robustness of explanations of randomized ensembles, which are always subject to algorithmic uncertainty even when the training data is fixed. We formalize the generation of robust counterfactual explanations as a probabilistic problem and show the link between the robustness of ensemble models and the robustness of base learners. We develop a practical method with good empirical performance and support it with theoretical guarantees for ensembles of convex base learners. Our results show that existing methods give surprisingly low robustness: the validity of naive counterfactuals is below $50\%$ on most data sets and can fall to $20\%$ on problems with many features. In contrast, our method achieves high robustness with only a small increase in the distance from counterfactual explanations to their initial observations.
arxiv情報
著者 | Alexandre Forel,Axel Parmentier,Thibaut Vidal |
発行日 | 2024-03-21 16:14:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google