Symmetry Defense Against CNN Adversarial Perturbation Attacks

要約

畳み込みニューラル ネットワーク分類器 (CNN) は、自動運転車の道路標識画像分類器などの分類器をだますために元のサンプルを混乱させる敵対的攻撃の影響を受けやすくなっています。
CNN は対称サンプルを異なる方法で分類できるため、CNN は対称サンプルの分類においても不変性を欠いています。
総合的に考えると、CNN の敵対的ロバスト性の欠如と CNN の不変性の欠如は、対称的な敵対的サンプルの分類がそれらの誤った分類と異なる可能性があることを意味します。
対称的な敵対的サンプルは、正しい分類に戻ることができますか?
このホワイト ペーパーでは、防御を認識していない敵対者に対する分類の前に、敵対者のサンプルを反転または水平反転する対称防御を設計することによって、この質問に答えます。
防御を認識している敵対者に対して、防御は水平反転対称とピクセル反転対称を含むクライン 4 対称サブグループを考案します。
対称防御は、精度評価におけるサブグループの対称性とサブグループ クロージャ プロパティを使用して、敵対的サンプルの生成前または生成後に適応敵対者が適用できる変換を制限します。
前処理、パラメーター、またはモデルを変更することなく、提案された対称防御は、ImageNet のデフォルトに近い精度で Projected Gradient Descent (PGD) および AutoAttack 攻撃に対抗します。
攻撃の知識や敵対者のサンプルを使用しない場合、提案された防御は、敵対者のサンプルでトレーニングする現在の最良の防御を上回ります。
防御は、非敵対的サンプルの分類精度を維持し、さらには向上させます。

要約(オリジナル)

Convolutional neural network classifiers (CNNs) are susceptible to adversarial attacks that perturb original samples to fool classifiers such as an autonomous vehicle’s road sign image classifier. CNNs also lack invariance in the classification of symmetric samples because CNNs can classify symmetric samples differently. Considered together, the CNN lack of adversarial robustness and the CNN lack of invariance mean that the classification of symmetric adversarial samples can differ from their incorrect classification. Could symmetric adversarial samples revert to their correct classification? This paper answers this question by designing a symmetry defense that inverts or horizontally flips adversarial samples before classification against adversaries unaware of the defense. Against adversaries aware of the defense, the defense devises a Klein four symmetry subgroup that includes the horizontal flip and pixel inversion symmetries. The symmetry defense uses the subgroup symmetries in accuracy evaluation and the subgroup closure property to confine the transformations that an adaptive adversary can apply before or after generating the adversarial sample. Without changing the preprocessing, parameters, or model, the proposed symmetry defense counters the Projected Gradient Descent (PGD) and AutoAttack attacks with near-default accuracies for ImageNet. Without using attack knowledge or adversarial samples, the proposed defense exceeds the current best defense, which trains on adversarial samples. The defense maintains and even improves the classification accuracy of non-adversarial samples.

arxiv情報

著者 Blerta Lindqvist
発行日 2023-03-13 13:56:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク