Explaining Image Classifiers Using Contrastive Counterfactuals in Generative Latent Spaces

要約

それらの高い精度にもかかわらず、現代の複雑な画像分類器は、それらの未知の意思決定プロセスと潜在的なバイアスのために、敏感なタスクに対して信頼することができません。
反事実的説明は、これらのブラックボックスアルゴリズムに透明性を提供するのに非常に効果的です。
それにもかかわらず、分類器の出力に一貫した影響を与える可能性があり、それでも解釈可能な機能の変更を公開する可能性のある反事実を生成することは、非常に困難な作業です。
再トレーニングや条件付けを行わずに、事前にトレーニングされた生成モデルを使用して、画像分類器の因果的でありながら解釈可能な反事実的説明を生成する新しい方法を紹介します。
この手法の生成モデルは、ターゲット分類器と同じデータでトレーニングされる必要はありません。
このフレームワークを使用して、ブラックボックス分類器のグローバルな説明として、対照的で因果的な十分性と必要性​​のスコアを取得します。
顔属性分類のタスクでは、因果的および対照的な特徴属性の両方、および対応する反事実画像を提供することにより、さまざまな属性が分類子の出力にどのように影響するかを示します。

要約(オリジナル)

Despite their high accuracies, modern complex image classifiers cannot be trusted for sensitive tasks due to their unknown decision-making process and potential biases. Counterfactual explanations are very effective in providing transparency for these black-box algorithms. Nevertheless, generating counterfactuals that can have a consistent impact on classifier outputs and yet expose interpretable feature changes is a very challenging task. We introduce a novel method to generate causal and yet interpretable counterfactual explanations for image classifiers using pretrained generative models without any re-training or conditioning. The generative models in this technique are not bound to be trained on the same data as the target classifier. We use this framework to obtain contrastive and causal sufficiency and necessity scores as global explanations for black-box classifiers. On the task of face attribute classification, we show how different attributes influence the classifier output by providing both causal and contrastive feature attributions, and the corresponding counterfactual images.

arxiv情報

著者 Kamran Alipour,Aditya Lahiri,Ehsan Adeli,Babak Salimi,Michael Pazzani
発行日 2022-06-10 17:54:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク