Towards Efficient Training and Evaluation of Robust Models against $l_0$ Bounded Adversarial Perturbations

要約

この研究では、$l_0$ ノルムに制限されたまばらな敵対的摂動を研究します。
我々は、このような摂動を効果的かつ効率的に生成するために、sparse-PGD と呼ばれるホワイトボックス PGD に似た攻撃手法を提案します。
さらに、スパースPGDとブラックボックス攻撃を組み合わせて、$l_0$境界のある敵対的摂動に対するモデルの堅牢性を包括的かつより信頼性高く評価します。
さらに、スパース PGD の効率により、敵対的トレーニングを実施して、スパース摂動に対して堅牢なモデルを構築することができます。
広範な実験により、私たちが提案した攻撃アルゴリズムがさまざまなシナリオで強力なパフォーマンスを発揮することが実証されました。
さらに重要なことは、他の堅牢なモデルと比較して、敵対的にトレーニングされたモデルは、さまざまなまばらな攻撃に対して最先端の堅牢性を示していることです。
コードは https://github.com/CityU-MLO/sPGD で入手できます。

要約(オリジナル)

This work studies sparse adversarial perturbations bounded by $l_0$ norm. We propose a white-box PGD-like attack method named sparse-PGD to effectively and efficiently generate such perturbations. Furthermore, we combine sparse-PGD with a black-box attack to comprehensively and more reliably evaluate the models’ robustness against $l_0$ bounded adversarial perturbations. Moreover, the efficiency of sparse-PGD enables us to conduct adversarial training to build robust models against sparse perturbations. Extensive experiments demonstrate that our proposed attack algorithm exhibits strong performance in different scenarios. More importantly, compared with other robust models, our adversarially trained model demonstrates state-of-the-art robustness against various sparse attacks. Codes are available at https://github.com/CityU-MLO/sPGD.

arxiv情報

著者 Xuyang Zhong,Yixiao Huang,Chen Liu
発行日 2024-05-08 14:18:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク