Guidance Through Surrogate: Towards a Generic Diagnostic Attack

要約

敵対的トレーニングは、深層ニューラル ネットワークを敵対的攻撃に対して堅牢にするための効果的なアプローチです。
最近、さまざまな敵対的トレーニング防御が提案されており、高いクリーンな精度を維持するだけでなく、PGD などの一般的でよく研究されている敵対的攻撃に対してもかなりの堅牢性を示します。
攻撃が「勾配マスキング」として知られる現象である敵対的な勾配方向を見つけられなかった場合にも、高い敵対的ロバスト性が生じる可能性があります。
この作業では、勾配マスキングの潜在的な原因の 1 つとして、敵対的トレーニングに対するラベル スムージングの効果を分析します。
次に、攻撃の最適化中に極小値を回避するためのガイド付きメカニズムを開発し、ガイド付き射影勾配攻撃 (G-PGA) と呼ばれる新しい攻撃につながります。
私たちの攻撃アプローチは、代理モデルからのガイダンスを通じて最適な敵対的方向を見つける「一致と欺き」損失に基づいています。
私たちの修正された攻撃は、ランダムな再起動、多数の攻撃反復、または最適なステップ サイズの検索を必要としません。
さらに、提案された G-PGA は汎用的であるため、自動攻撃の場合に示すように、アンサンブル攻撃戦略と組み合わせることができ、効率と収束速度の向上につながります。
効果的な攻撃以上に、G-PGA を診断ツールとして使用して、敵対的防御における勾配マスキングによるとらえどころのない堅牢性を明らかにすることができます。

要約(オリジナル)

Adversarial training is an effective approach to make deep neural networks robust against adversarial attacks. Recently, different adversarial training defenses are proposed that not only maintain a high clean accuracy but also show significant robustness against popular and well studied adversarial attacks such as PGD. High adversarial robustness can also arise if an attack fails to find adversarial gradient directions, a phenomenon known as `gradient masking’. In this work, we analyse the effect of label smoothing on adversarial training as one of the potential causes of gradient masking. We then develop a guided mechanism to avoid local minima during attack optimization, leading to a novel attack dubbed Guided Projected Gradient Attack (G-PGA). Our attack approach is based on a `match and deceive’ loss that finds optimal adversarial directions through guidance from a surrogate model. Our modified attack does not require random restarts, large number of attack iterations or search for an optimal step-size. Furthermore, our proposed G-PGA is generic, thus it can be combined with an ensemble attack strategy as we demonstrate for the case of Auto-Attack, leading to efficiency and convergence speed improvements. More than an effective attack, G-PGA can be used as a diagnostic tool to reveal elusive robustness due to gradient masking in adversarial defenses.

arxiv情報

著者 Muzammal Naseer,Salman Khan,Fatih Porikli,Fahad Shahbaz Khan
発行日 2022-12-30 18:45:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク