On the explainable properties of 1-Lipschitz Neural Networks: An Optimal Transport Perspective

要約

入力勾配は、モデルの堅牢性を評価するための敵対的攻撃アルゴリズム、顕著性マップを生成するための説明可能な AI 技術、反事実の説明など、さまざまなアプリケーションで極めて重要な役割を果たします。
ただし、従来のニューラル ネットワークによって生成された顕著性マップにはノイズが多く、得られる洞察は限られています。
この論文では、逆に、最適輸送問題の二重損失で学習された 1-リプシッツ ニューラル ネットワークの顕著性マップが望ましい XAI 特性を示すことを実証します。それらは、画像の重要な部分に高度に集中しています。
低ノイズで、さまざまなモデルや指標にわたって最先端の説明アプローチを大幅に上回ります。
また、これらの地図が ImageNet 上の人間による説明と前例のないほどよく一致することも証明します。
このようなモデルに対する顕著性マップの特に有益な特性を説明するために、この勾配が輸送計画の方向と最も近い敵対的攻撃への方向の両方をエンコードしていることを証明します。
決定境界まで勾配をたどることはもはや敵対的攻撃とみなされず、入力をあるクラスから別のクラスに明示的に転送する反事実的な説明とみなされます。
したがって、このような損失を伴う学習は、分類の目的と、輸送計画の方向に対する勾配、つまり顕著性マップの位置合わせを共同で最適化します。
これらのネットワークは、設計上確実に堅牢であることが以前から知られており、大規模な問題やモデルに対して適切に拡張でき、高速で簡単な方法を使用して説明可能になるように調整されていることを実証します。

要約(オリジナル)

Input gradients have a pivotal role in a variety of applications, including adversarial attack algorithms for evaluating model robustness, explainable AI techniques for generating Saliency Maps, and counterfactual explanations. However, Saliency Maps generated by traditional neural networks are often noisy and provide limited insights. In this paper, we demonstrate that, on the contrary, the Saliency Maps of 1-Lipschitz neural networks, learnt with the dual loss of an optimal transportation problem, exhibit desirable XAI properties: They are highly concentrated on the essential parts of the image with low noise, significantly outperforming state-of-the-art explanation approaches across various models and metrics. We also prove that these maps align unprecedentedly well with human explanations on ImageNet. To explain the particularly beneficial properties of the Saliency Map for such models, we prove this gradient encodes both the direction of the transportation plan and the direction towards the nearest adversarial attack. Following the gradient down to the decision boundary is no longer considered an adversarial attack, but rather a counterfactual explanation that explicitly transports the input from one class to another. Thus, Learning with such a loss jointly optimizes the classification objective and the alignment of the gradient , i.e. the Saliency Map, to the transportation plan direction. These networks were previously known to be certifiably robust by design, and we demonstrate that they scale well for large problems and models, and are tailored for explainability using a fast and straightforward method.

arxiv情報

著者 Mathieu Serrurier,Franck Mamalet,Thomas Fel,Louis Béthune,Thibaut Boissin
発行日 2023-06-22 12:33:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG, stat.ML パーマリンク