要約
さまざまなタスクにわたるディープニューラルネットワークの大きな成功にもかかわらず、知覚できない敵対的摂動に対する脆弱性が、現実世界での展開を妨げてきました。
最近、ランダム化されたアンサンブルでの作業により、最小限の計算オーバーヘッドで標準の敵対的に訓練された(AT)モデルよりも敵対的なロバスト性が大幅に向上することが経験的に実証されており、安全性が重要なリソースに制約のあるアプリケーションの有望なソリューションとなっています。
ただし、この印象的なパフォーマンスは疑問を投げかけます。ランダム化されたアンサンブルによって提供されるこれらの堅牢性の向上は本当ですか?
この作業では、理論的および経験的にこの質問に対処します。
最初に、適応PGDなどの一般的に採用されているロバスト性評価方法がこの設定で誤った安心感を提供することを理論的に確立します。
続いて、適応型PGDが失敗した場合でも、ランダムなアンサンブルを危険にさらすことができる、理論的に健全で効率的な敵対的攻撃アルゴリズム(ARC)を提案します。
さまざまなネットワークアーキテクチャ、トレーニングスキーム、データセット、および規範にわたって包括的な実験を実施して、主張をサポートし、ランダム化されたアンサンブルが実際には標準のATモデルよりも$ \ell_p$に制限された敵対的摂動に対して脆弱であることを経験的に確立します。
私たちのコードはhttps://github.com/hsndbk4/ARCにあります。
要約(オリジナル)
Despite the tremendous success of deep neural networks across various tasks, their vulnerability to imperceptible adversarial perturbations has hindered their deployment in the real world. Recently, works on randomized ensembles have empirically demonstrated significant improvements in adversarial robustness over standard adversarially trained (AT) models with minimal computational overhead, making them a promising solution for safety-critical resource-constrained applications. However, this impressive performance raises the question: Are these robustness gains provided by randomized ensembles real? In this work we address this question both theoretically and empirically. We first establish theoretically that commonly employed robustness evaluation methods such as adaptive PGD provide a false sense of security in this setting. Subsequently, we propose a theoretically-sound and efficient adversarial attack algorithm (ARC) capable of compromising random ensembles even in cases where adaptive PGD fails to do so. We conduct comprehensive experiments across a variety of network architectures, training schemes, datasets, and norms to support our claims, and empirically establish that randomized ensembles are in fact more vulnerable to $\ell_p$-bounded adversarial perturbations than even standard AT models. Our code can be found at https://github.com/hsndbk4/ARC.
arxiv情報
著者 | Hassan Dbouk,Naresh R. Shanbhag |
発行日 | 2022-06-14 10:37:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google