Adversarial Counterfactual Visual Explanations

要約

反事実的説明と敵対的攻撃には関連する目標があります。それは、その特性に関係なく、最小限の摂動で出力ラベルを反転させることです。
しかし、敵対的攻撃は、事実に反する説明の観点から直接使用することはできません。そのような摂動はノイズとして認識され、実行可能で理解可能なイメージの変更として認識されないからです。
堅牢な学習文献に基づいて、この論文では、分類器を変更して説明することなく、敵対的攻撃を意味的に意味のある摂動に変えるエレガントな方法を提案します。
提案されたアプローチは、敵対的攻撃を生成するときに、ノイズ除去拡散確率モデルが高頻度および分布外の摂動を回避するための優れた正則化器であるという仮説を立てています。
この論文の重要なアイデアは、拡散モデルを介して攻撃を構築し、それらを洗練することです。
これにより、ロバスト化レベルに関係なく、ターゲット モデルを調査できます。
広範な実験により、複数のテストベッドでの現在の最先端技術に対する反事実的説明アプローチの利点が示されています。

要約(オリジナル)

Counterfactual explanations and adversarial attacks have a related goal: flipping output labels with minimal perturbations regardless of their characteristics. Yet, adversarial attacks cannot be used directly in a counterfactual explanation perspective, as such perturbations are perceived as noise and not as actionable and understandable image modifications. Building on the robust learning literature, this paper proposes an elegant method to turn adversarial attacks into semantically meaningful perturbations, without modifying the classifiers to explain. The proposed approach hypothesizes that Denoising Diffusion Probabilistic Models are excellent regularizers for avoiding high-frequency and out-of-distribution perturbations when generating adversarial attacks. The paper’s key idea is to build attacks through a diffusion model to polish them. This allows studying the target model regardless of its robustification level. Extensive experimentation shows the advantages of our counterfactual explanation approach over current State-of-the-Art in multiple testbeds.

arxiv情報

著者 Guillaume Jeanneret,Loïc Simon,Frédéric Jurie
発行日 2023-03-17 13:34:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク