Latent Diffusion Counterfactual Explanations

要約

反事実的な説明は、不透明なブラックボックス モデルの動作を解明するための有望な方法として浮上しています。
最近、いくつかの作品では、反事実生成のためにピクセル空間拡散モデルを活用しました。
非現実的なアーチファクトや単なる敵対的な摂動を引き起こす、反事実生成中のノイズの多い敵対的な勾配を処理するには、補助的な敵対的に堅牢なモデルか、計算集約型のガイダンス スキームのいずれかが必要でした。
ただし、このような要件により、モデルのトレーニング データへのアクセスが制限されているシナリオなど、適用可能性が制限されます。
これらの制限に対処するために、潜在拡散反事実説明 (LDCE) を導入します。
LDCE は、最近のクラス条件またはテキスト条件基盤の潜在拡散モデルの機能を利用して、反事実の生成を促進し、データの重要な意味部分に焦点を当てます。
さらに、拡散モデルの暗黙的な分類子と一致しない、ノイズの多い敵対的な勾配をフィルタリングして除去するための新しいコンセンサス ガイダンス メカニズムを提案します。
私たちは、さまざまな学習パラダイムを使用して多様なデータセットでトレーニングされた幅広いモデルにわたる LDCE の多用途性を実証します。
最後に、LDCE がモデルのエラーに対する洞察をどのように提供できるかを紹介し、ブラックボックス モデルの動作についての理解を深めます。

要約(オリジナル)

Counterfactual explanations have emerged as a promising method for elucidating the behavior of opaque black-box models. Recently, several works leveraged pixel-space diffusion models for counterfactual generation. To handle noisy, adversarial gradients during counterfactual generation — causing unrealistic artifacts or mere adversarial perturbations — they required either auxiliary adversarially robust models or computationally intensive guidance schemes. However, such requirements limit their applicability, e.g., in scenarios with restricted access to the model’s training data. To address these limitations, we introduce Latent Diffusion Counterfactual Explanations (LDCE). LDCE harnesses the capabilities of recent class- or text-conditional foundation latent diffusion models to expedite counterfactual generation and focus on the important, semantic parts of the data. Furthermore, we propose a novel consensus guidance mechanism to filter out noisy, adversarial gradients that are misaligned with the diffusion model’s implicit classifier. We demonstrate the versatility of LDCE across a wide spectrum of models trained on diverse datasets with different learning paradigms. Finally, we showcase how LDCE can provide insights into model errors, enhancing our understanding of black-box model behavior.

arxiv情報

著者 Karim Farid,Simon Schrodi,Max Argus,Thomas Brox
発行日 2023-10-10 14:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク