Manipulating Feature Visualizations with Gradient Slingshots

要約

ディープ ニューラル ネットワーク (DNN) は、複雑で多彩な表現を学習できますが、学習された概念の意味論的な性質は不明のままです。
DNN によって学習された概念を説明するために使用される一般的な方法は、ネットワーク内の特定のニューロンを最大限に活性化する合成入力信号を生成する活性化最大化 (AM) です。
この論文では、敵対的なモデル操作に対するこのアプローチの脆弱性を調査し、モデル アーキテクチャを変更したり、モデルの意思決定プロセスに大きな影響を与えたりすることなく、特徴の視覚化を操作するための新しい方法を紹介します。
いくつかのニューラル ネットワーク モデルでこの手法の有効性を評価し、モデル監査中に選択したターゲットの説明でニューロンの元の説明をマスクすることによって、特定のニューロンの機能を隠す機能を実証します。
救済策として、私たちはそのような操作に対する保護措置を提案し、調査結果を裏付ける定量的証拠を提供します。

要約(オリジナル)

Deep Neural Networks (DNNs) are capable of learning complex and versatile representations, however, the semantic nature of the learned concepts remains unknown. A common method used to explain the concepts learned by DNNs is Activation Maximization (AM), which generates a synthetic input signal that maximally activates a particular neuron in the network. In this paper, we investigate the vulnerability of this approach to adversarial model manipulations and introduce a novel method for manipulating feature visualization without altering the model architecture or significantly impacting the model’s decision-making process. We evaluate the effectiveness of our method on several neural network models and demonstrate its capabilities to hide the functionality of specific neurons by masking the original explanations of neurons with chosen target explanations during model auditing. As a remedy, we propose a protective measure against such manipulations and provide quantitative evidence which substantiates our findings.

arxiv情報

著者 Dilyara Bareeva,Marina M. -C. Höhne,Alexander Warnecke,Lukas Pirch,Klaus-Robert Müller,Konrad Rieck,Kirill Bykov
発行日 2024-01-11 18:57:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク