Relating Implicit Bias and Adversarial Attacks through Intrinsic Dimension

要約

分類における優れたパフォーマンスにもかかわらず、ニューラル ネットワークは敵対的な攻撃に対して脆弱であることが知られています。
これらの攻撃は、モデルを欺くことを目的とした入力データの小さな混乱です。
当然のことながら、モデルのアーキテクチャ、設定、またはプロパティと攻撃の性質との間の潜在的な関連性に関して疑問が生じます。
この研究では、特定のパターンや結果を好むニューラル ネットワークの固有の傾向を指す、ニューラル ネットワークの暗黙的なバイアスに焦点を当てることで、この問題に光を当てることを目指しています。
具体的には、正確な画像分類に必要な必須のフーリエ周波数に関係する、暗黙的なバイアスの 1 つの側面を調査します。
当社では、これらの周波数と攻撃の成功に必要な周波数との間の統計的関係を評価するテストを実施します。
この関係を詳しく調べるために、座標セット (この場合は前述の周波数) 間の非線形相関を明らかにできる新しい方法を提案します。
固有の次元と相関関係の間のもつれを利用することにより、フーリエ空間におけるネットワークの偏りと敵対的攻撃の標的周波数が密接に結びついているという経験的証拠を提供します。

要約(オリジナル)

Despite their impressive performance in classification, neural networks are known to be vulnerable to adversarial attacks. These attacks are small perturbations of the input data designed to fool the model. Naturally, a question arises regarding the potential connection between the architecture, settings, or properties of the model and the nature of the attack. In this work, we aim to shed light on this problem by focusing on the implicit bias of the neural network, which refers to its inherent inclination to favor specific patterns or outcomes. Specifically, we investigate one aspect of the implicit bias, which involves the essential Fourier frequencies required for accurate image classification. We conduct tests to assess the statistical relationship between these frequencies and those necessary for a successful attack. To delve into this relationship, we propose a new method that can uncover non-linear correlations between sets of coordinates, which, in our case, are the aforementioned frequencies. By exploiting the entanglement between intrinsic dimension and correlation, we provide empirical evidence that the network bias in Fourier space and the target frequencies of adversarial attacks are closely tied.

arxiv情報

著者 Lorenzo Basile,Nikos Karantzas,Alberto D’Onofrio,Luca Bortolussi,Alex Rodriguez,Fabio Anselmi
発行日 2023-05-24 14:40:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG, stat.ML パーマリンク