Symmetry Defense Against XGBoost Adversarial Perturbation Attacks

要約

私たちは、対称性を利用して、勾配ブースティング決定木 (GBDT) などのツリーベースのアンサンブル分類器を敵対的な摂動攻撃から防御できるかどうかを検討します。
このアイデアは、対称性に関して CNN に不変性がないことを利用した、畳み込みニューラル ネットワーク分類器 (CNN) の最近の対称性防御に基づいています。
CNN には、水平方向に反転した画像などの対称サンプルを元のサンプルとは異なる方法で分類できるため、不変性が欠けています。
CNN に不変性がないということは、CNN が対称的な敵対的サンプルを、敵対的サンプルの不正確な分類とは異なる方法で分類できることも意味します。
CNN の不変性の欠如を利用して、最近の CNN 対称性防御は、対称的な敵対的サンプルの分類が正しいサンプル分類に戻ることを示しました。
同じ対称性の防御を GBDT に適用するために、GBDT の不変性を調べ、GBDT にも対称性に関して不変性がないことを初めて示しました。
ゼロ知識から完全知識の攻撃者までの脅威モデルを使用して、6 つの摂動攻撃に対する 9 つのデータセットに対する GBDT 対称防御を適用して評価します。
ゼロ知識の敵対者に対する特徴反転対称性を使用すると、デフォルトのロバスト分類器の精度が 0% であっても、敵対的サンプルで最大 100% の精度を達成できます。
完全知識の敵対者に対して特徴反転と水平反転対称性を使用することで、デフォルトおよびロバストな分類器の精度が 0% である場合でも、F-MNIST データセットの GBDT 分類器の敵対的サンプルで最大 95% 以上の精度を達成します。

要約(オリジナル)

We examine whether symmetry can be used to defend tree-based ensemble classifiers such as gradient-boosting decision trees (GBDTs) against adversarial perturbation attacks. The idea is based on a recent symmetry defense for convolutional neural network classifiers (CNNs) that utilizes CNNs’ lack of invariance with respect to symmetries. CNNs lack invariance because they can classify a symmetric sample, such as a horizontally flipped image, differently from the original sample. CNNs’ lack of invariance also means that CNNs can classify symmetric adversarial samples differently from the incorrect classification of adversarial samples. Using CNNs’ lack of invariance, the recent CNN symmetry defense has shown that the classification of symmetric adversarial samples reverts to the correct sample classification. In order to apply the same symmetry defense to GBDTs, we examine GBDT invariance and are the first to show that GBDTs also lack invariance with respect to symmetries. We apply and evaluate the GBDT symmetry defense for nine datasets against six perturbation attacks with a threat model that ranges from zero-knowledge to perfect-knowledge adversaries. Using the feature inversion symmetry against zero-knowledge adversaries, we achieve up to 100% accuracy on adversarial samples even when default and robust classifiers have 0% accuracy. Using the feature inversion and horizontal flip symmetries against perfect-knowledge adversaries, we achieve up to over 95% accuracy on adversarial samples for the GBDT classifier of the F-MNIST dataset even when default and robust classifiers have 0% accuracy.

arxiv情報

著者 Blerta Lindqvist
発行日 2023-08-10 13:39:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク