要約
反事実的な説明は、事後的に解釈可能な機械学習の事実上の標準になりつつあります。
特定の分類器と、望ましくないクラスに分類されたインスタンスの場合、その反事実的な説明は、分類結果の変更を可能にするそのインスタンスの小さな摂動に対応します。
この研究の目的は、反事実の説明を活用して、事前トレーニングされたブラックボックス モデルの重要な意思決定の境界を検出することです。
この情報は、調整可能な粒度でデータセット内の特徴の教師あり離散化を構築するために使用されます。
離散化されたデータセットを使用すると、ブラック ボックス モデルに似ているが、解釈可能でコンパクトな最適なデシジョン ツリーをトレーニングできます。
現実世界のデータセットの数値結果は、精度と疎性の点でこのアプローチの有効性を示しています。
要約(オリジナル)
Counterfactual Explanations are becoming a de-facto standard in post-hoc interpretable machine learning. For a given classifier and an instance classified in an undesired class, its counterfactual explanation corresponds to small perturbations of that instance that allows changing the classification outcome. This work aims to leverage Counterfactual Explanations to detect the important decision boundaries of a pre-trained black-box model. This information is used to build a supervised discretization of the features in the dataset with a tunable granularity. Using the discretized dataset, an optimal Decision Tree can be trained that resembles the black-box model, but that is interpretable and compact. Numerical results on real-world datasets show the effectiveness of the approach in terms of accuracy and sparsity.
arxiv情報
著者 | Veronica Piccialli,Dolores Romero Morales,Cecilia Salvatore |
発行日 | 2023-11-24 12:19:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google