Birds look like cars: Adversarial analysis of intrinsically interpretable deep learning

要約

一般的な信念は、本質的に解釈可能な深い学習モデルが、彼らの行動を正しく直感的に理解し、偶発的なエラーや意図的な操作に対してより大きな堅牢性を提供するということです。
しかし、これらの信念は包括的に検証されておらず、増え続ける証拠はそれらに疑問を投げかけています。
このホワイトペーパーでは、これらのいわゆる「本質的に(本質的に)解釈可能な」モデルの敵対的操作に対する過依存と感受性に関連するリスクを強調します。
プロトタイプの操作とプロトタイプベースのネットワークに対するバックドア攻撃により、敵対的な分析のための2つの戦略を導入し、コンセプトボトルネックモデルがこれらの攻撃に対してどのように防御するかを議論します。
潜在的なプロトタイプの使用を活用することでモデルの推論をだますことは、深いニューラルネットワークの固有の不可解性を明らかにし、視覚的確認バイアスによって強化された誤ったセキュリティの感覚につながります。
プロトタイプベースのネットワークの報告された制限により、信頼性と適用性が疑問視され、(深い)解釈可能なモデルの堅牢性と調整に関するさらなる作業が動機付けられました。

要約(オリジナル)

A common belief is that intrinsically interpretable deep learning models ensure a correct, intuitive understanding of their behavior and offer greater robustness against accidental errors or intentional manipulation. However, these beliefs have not been comprehensively verified, and growing evidence casts doubt on them. In this paper, we highlight the risks related to overreliance and susceptibility to adversarial manipulation of these so-called ‘intrinsically (aka inherently) interpretable’ models by design. We introduce two strategies for adversarial analysis with prototype manipulation and backdoor attacks against prototype-based networks, and discuss how concept bottleneck models defend against these attacks. Fooling the model’s reasoning by exploiting its use of latent prototypes manifests the inherent uninterpretability of deep neural networks, leading to a false sense of security reinforced by a visual confirmation bias. The reported limitations of prototype-based networks put their trustworthiness and applicability into question, motivating further work on the robustness and alignment of (deep) interpretable models.

arxiv情報

著者 Hubert Baniecki,Przemyslaw Biecek
発行日 2025-03-11 17:24:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク