Global Counterfactual Directions

要約

特に最近のノイズ除去拡散確率モデルの台頭により、視覚的な反事実の説明を生成する方法の開発はますます進歩しているにもかかわらず、以前の研究ではそれらを完全にローカルな技術とみなしていました。
この取り組みでは、それらをグローバル化するための第一歩を踏み出します。
具体的には、拡散オートエンコーダーの潜在空間が、特定の分類子の推論プロセスをグローバル方向の形式でエンコードしていることを発見しました。
我々は、単一の画像のみを使用して完全にブラックボックス方式でこれらの 2 種類の方向を発見する、新しいプロキシベースのアプローチを提案します。
正確には、g 方向では、画像のデータセット全体に対する特定の分類器の決定を反転することができますが、h 方向では説明の多様性がさらに高まります。
私たちはこれらを一般に、グローバル反事実的方向性 (GCD) と呼んでいます。
さらに、GCD を潜在統合勾配と自然に組み合わせることができることを示し、その結果、新しいブラックボックス帰属方法が得られ、同時に反事実の説明の理解を強化します。
既存のベンチマークでアプローチを検証し、それが現実世界のユースケースに一般化できることを示します。

要約(オリジナル)

Despite increasing progress in development of methods for generating visual counterfactual explanations, especially with the recent rise of Denoising Diffusion Probabilistic Models, previous works consider them as an entirely local technique. In this work, we take the first step at globalizing them. Specifically, we discover that the latent space of Diffusion Autoencoders encodes the inference process of a given classifier in the form of global directions. We propose a novel proxy-based approach that discovers two types of these directions with the use of only single image in an entirely black-box manner. Precisely, g-directions allow for flipping the decision of a given classifier on an entire dataset of images, while h-directions further increase the diversity of explanations. We refer to them in general as Global Counterfactual Directions (GCDs). Moreover, we show that GCDs can be naturally combined with Latent Integrated Gradients resulting in a new black-box attribution method, while simultaneously enhancing the understanding of counterfactual explanations. We validate our approach on existing benchmarks and show that it generalizes to real-world use-cases.

arxiv情報

著者 Bartlomiej Sobieski,Przemysław Biecek
発行日 2024-07-23 11:58:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク