When adversarial attacks become interpretable counterfactual explanations

要約

最適な輸送問題の二重損失を伴う1-リプシッツニューラルネットワークを学習する場合、モデルの勾配は輸送計画の方向と最も近い敵の攻撃への方向の両方であると主張します。
勾配に沿って決定境界まで移動することは、もはや敵対的な攻撃ではありませんが、あるクラスから別のクラスに明示的に移動する、反事実的な説明になります。
XAIメトリックに関する広範な実験を通じて、このようなネットワークに適用される単純な顕著性マップ手法が信頼できる説明になり、制約のないモデルでの最先端の説明アプローチよりも優れていることがわかりました。
提案されたネットワークは、確か​​に堅牢であることがすでに知られており、高速で簡単な方法でも説明できることを証明しています。

要約(オリジナル)

We argue that, when learning a 1-Lipschitz neural network with the dual loss of an optimal transportation problem, the gradient of the model is both the direction of the transportation plan and the direction to the closest adversarial attack. Traveling along the gradient to the decision boundary is no more an adversarial attack but becomes a counterfactual explanation, explicitly transporting from one class to the other. Through extensive experiments on XAI metrics, we find that the simple saliency map method, applied on such networks, becomes a reliable explanation, and outperforms the state-of-the-art explanation approaches on unconstrained models. The proposed networks were already known to be certifiably robust, and we prove that they are also explainable with a fast and simple method.

arxiv情報

著者 Mathieu Serrurier,Franck Mamalet,Thomas Fel,Louis Béthune,Thibaut Boissin
発行日 2022-06-14 13:49:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG, stat.ML パーマリンク