The Anatomy of Adversarial Attacks: Concept-based XAI Dissection

要約

敵対的攻撃 (AA) は、ディープ ニューラル ネットワークの信頼性と堅牢性に重大な脅威をもたらします。
モデル予測に対するこれらの攻撃の影響は広範囲に研究されていますが、これらのモデル内の学習された表現や概念に対する攻撃の影響はほとんど調査されていないままです。
この研究では、説明可能な人工知能 (XAI) 技術を使用して、畳み込みニューラル ネットワーク (CNN) によって学習された概念に対する AA の影響について詳細な分析を実行します。
さまざまなネットワーク アーキテクチャと対象を絞った AA 技術にわたる広範な実験を通じて、いくつかの重要な発見を明らかにしました。
まず、AA は特徴空間内の概念構成に大幅な変更を引き起こし、新しい概念を導入したり、既存の概念を変更したりします。
第 2 に、敵対的な摂動自体は一連の潜在ベクトル コンポーネントに線形的に分解でき、これらのサブセットが攻撃の成功に関与します。
特に、これらのコンポーネントはターゲット固有であること、つまり、さまざまな AA テクニックや開始クラスを通じて、特定のターゲット クラスに対して類似していることがわかりました。
私たちの調査結果は、AA の性質と学習された表現に対する AA の影響についての貴重な洞察を提供し、より堅牢で解釈可能な深層学習モデルの開発と、敵対的な脅威に対する効果的な防御への道を開きます。

要約(オリジナル)

Adversarial attacks (AAs) pose a significant threat to the reliability and robustness of deep neural networks. While the impact of these attacks on model predictions has been extensively studied, their effect on the learned representations and concepts within these models remains largely unexplored. In this work, we perform an in-depth analysis of the influence of AAs on the concepts learned by convolutional neural networks (CNNs) using eXplainable artificial intelligence (XAI) techniques. Through an extensive set of experiments across various network architectures and targeted AA techniques, we unveil several key findings. First, AAs induce substantial alterations in the concept composition within the feature space, introducing new concepts or modifying existing ones. Second, the adversarial perturbation itself can be linearly decomposed into a set of latent vector components, with a subset of these being responsible for the attack’s success. Notably, we discover that these components are target-specific, i.e., are similar for a given target class throughout different AA techniques and starting classes. Our findings provide valuable insights into the nature of AAs and their impact on learned representations, paving the way for the development of more robust and interpretable deep learning models, as well as effective defenses against adversarial threats.

arxiv情報

著者 Georgii Mikriukov,Gesina Schwalbe,Franz Motzkus,Korinna Bade
発行日 2024-03-25 13:57:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク