Manipulating Feature Visualizations with Gradient Slingshots

要約

ディープ ニューラル ネットワーク (DNN) は、複雑で多彩な表現を学習できますが、学習された概念の意味論的な性質は不明のままです。
DNN によって学習された概念を説明するために使用される一般的な方法は、ネットワーク内の特定のニューロンを最大限に活性化する合成入力信号を生成する特徴視覚化 (FV) です。
この論文では、敵対的モデル操作に対するこのアプローチの脆弱性を調査し、モデルの意思決定プロセスに大きな影響を与えることなく FV を操作するための新しい方法を紹介します。
私たちが提案するアプローチの主な違いは、モデルのアーキテクチャを変更しないことです。
いくつかのニューラル ネットワーク モデルでこの方法の有効性を評価し、モデルの監査中に選択されたターゲットの説明でニューロンの元の説明をマスクすることによって、任意に選択されたニューロンの機能を隠す機能を実証します。

要約(オリジナル)

Deep Neural Networks (DNNs) are capable of learning complex and versatile representations, however, the semantic nature of the learned concepts remains unknown. A common method used to explain the concepts learned by DNNs is Feature Visualization (FV), which generates a synthetic input signal that maximally activates a particular neuron in the network. In this paper, we investigate the vulnerability of this approach to adversarial model manipulations and introduce a novel method for manipulating FV without significantly impacting the model’s decision-making process. The key distinction of our proposed approach is that it does not alter the model architecture. We evaluate the effectiveness of our method on several neural network models and demonstrate its capabilities to hide the functionality of arbitrarily chosen neurons by masking the original explanations of neurons with chosen target explanations during model auditing.

arxiv情報

著者 Dilyara Bareeva,Marina M. -C. Höhne,Alexander Warnecke,Lukas Pirch,Klaus-Robert Müller,Konrad Rieck,Kirill Bykov
発行日 2024-07-10 16:08:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク