要約
特徴視覚化(FV)は、特定の機能を最大限に活性化する入力パターンを合成するディープニューラルネットワーク(DNNS)によって学習された概念を解釈するための広く使用されている手法です。
その人気にもかかわらず、FVの説明の信頼性は限られた注目を集めています。
この論文では、モデルアーキテクチャを変更したり、パフォーマンスを大幅に分解せずにFVの操作を可能にする新しい方法であるグラデーションパチンコを紹介します。
特徴の活性化状況の分散領域に新しい軌跡を形作ることにより、事前に定義された視覚化に収束するために最適化プロセスを強制します。
いくつかのDNNアーキテクチャでアプローチを評価し、忠実なFVを任意のターゲットに置き換える能力を実証します。
これらの結果は、重大な脆弱性を明らかにします。FVのみに依存する監査人は、完全に製造された説明を受け入れる可能性があります。
このリスクを軽減するために、私たちは簡単な防御を提案し、その有効性を定量的に実証します。
要約(オリジナル)
Feature Visualization (FV) is a widely used technique for interpreting the concepts learned by Deep Neural Networks (DNNs), which synthesizes input patterns that maximally activate a given feature. Despite its popularity, the trustworthiness of FV explanations has received limited attention. In this paper, we introduce a novel method, Gradient Slingshots, that enables manipulation of FV without modifying the model architecture or significantly degrading its performance. By shaping new trajectories in the off-distribution regions of the activation landscape of a feature, we coerce the optimization process to converge in a predefined visualization. We evaluate our approach on several DNN architectures, demonstrating its ability to replace faithfuls FV with arbitrary targets. These results expose a critical vulnerability: auditors relying solely on FV may accept entirely fabricated explanations. To mitigate this risk, we propose a straightforward defense and quantitatively demonstrate its effectiveness.
arxiv情報
著者 | Dilyara Bareeva,Marina M. -C. Höhne,Alexander Warnecke,Lukas Pirch,Klaus-Robert Müller,Konrad Rieck,Sebastian Lapuschkin,Kirill Bykov |
発行日 | 2025-06-13 16:13:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google