Analyzing and Explaining Image Classifiers via Diffusion Guidance

要約

ディープラーニングは、ImageNet のような複雑な画像分類タスクにおいて大きな進歩をもたらしましたが、予期せぬ障害モード、たとえば、
偽の特徴により、これらの分類器が実際にどの程度確実に機能するか疑問が生じます。
さらに、安全性が重要なタスクでは、決定のブラックボックス的な性質に問題があり、決定をもっともらしいものにする説明、または少なくとも方法が早急に必要とされています。
この論文では、ガイド付き画像生成のフレームワークを使用して、分類器から導出された目的を最適化する画像を生成することで、これらの問題に対処します。
私たちは、視覚的反事実説明 (VCE) によって画像分類器の動作と決定を分析し、分類器が最も不一致な画像を分析することによって系統的間違いを検出し、潜在的な偽の特徴を検証するためにニューロンを視覚化します。
このようにして、既存の観察結果を検証します。
敵対的にロバストなモデルの形状バイアス、および新しい故障モード。
ゼロショット CLIP 分類器の系統的エラー、または有害なスプリアス特徴を特定します。
さらに、当社の VCE は以前の製品よりも優れたパフォーマンスを発揮し、より多用途です。

要約(オリジナル)

While deep learning has led to huge progress in complex image classification tasks like ImageNet, unexpected failure modes, e.g. via spurious features, call into question how reliably these classifiers work in the wild. Furthermore, for safety-critical tasks the black-box nature of their decisions is problematic, and explanations or at least methods which make decisions plausible are needed urgently. In this paper, we address these problems by generating images that optimize a classifier-derived objective using a framework for guided image generation. We analyze the behavior and decisions of image classifiers by visual counterfactual explanations (VCEs), detection of systematic mistakes by analyzing images where classifiers maximally disagree, and visualization of neurons to verify potential spurious features. In this way, we validate existing observations, e.g. the shape bias of adversarially robust models, as well as novel failure modes, e.g. systematic errors of zero-shot CLIP classifiers, or identify harmful spurious features. Moreover, our VCEs outperform previous work while being more versatile.

arxiv情報

著者 Maximilian Augustin,Yannic Neuhaus,Matthias Hein
発行日 2023-11-29 17:35:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク