Text-to-Image Models for Counterfactual Explanations: a Black-Box Approach

要約

この論文では、特定の画像に対する分類器の予測を変更するために必要な最小限の特徴の特定と変更を伴う反事実説明 (CE) を生成するという課題に取り組みます。
私たちが提案する手法である Text-to-Image Models for Counterfactual Preparations (TIME) は、蒸留に基づくブラックボックスの反事実手法です。
以前の方法とは異なり、このアプローチでは画像とその予測のみが必要で、分類器の構造、パラメーター、または勾配は必要ありません。
反事実を生成する前に、TIME はテキスト埋め込みの形で 2 つの異なるバイアスを安定拡散に導入します。1 つは画像の構造に関連付けられたコンテキスト バイアス、もう 1 つはターゲット分類子によって学習されたクラス固有の特徴に関連付けられたクラス バイアスです。
これらのバイアスを学習した後、分類子の予測クラス トークンを適用する最適な潜在コードを見つけ、条件付けとしてターゲットの埋め込みを使用して画像を再生成し、反事実的な説明を生成します。
広範な実証研究により、ブラックボックス設定内で動作している場合でも、TIME が同等の有効性の説明を生成できることが検証されています。

要約(オリジナル)

This paper addresses the challenge of generating Counterfactual Explanations (CEs), involving the identification and modification of the fewest necessary features to alter a classifier’s prediction for a given image. Our proposed method, Text-to-Image Models for Counterfactual Explanations (TIME), is a black-box counterfactual technique based on distillation. Unlike previous methods, this approach requires solely the image and its prediction, omitting the need for the classifier’s structure, parameters, or gradients. Before generating the counterfactuals, TIME introduces two distinct biases into Stable Diffusion in the form of textual embeddings: the context bias, associated with the image’s structure, and the class bias, linked to class-specific features learned by the target classifier. After learning these biases, we find the optimal latent code applying the classifier’s predicted class token and regenerate the image using the target embedding as conditioning, producing the counterfactual explanation. Extensive empirical studies validate that TIME can generate explanations of comparable effectiveness even when operating within a black-box setting.

arxiv情報

著者 Guillaume Jeanneret,Loïc Simon,Frédéric Jurie
発行日 2023-11-15 13:46:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク