Quantifying the Preferential Direction of the Model Gradient in Adversarial Training With Projected Gradient Descent

要約

タイトル:反対向き勾配の傾向を投影勾配降下法を使用してadversarial trainingで定量化する

要約:
– Adversarial trainingは、特に投影勾配降下法(PGD)は、adversarial attackに対する頑強性を向上させるための成功した手法である。
– Adversarial trainingの後、モデルの勾配による入力の方向性がある。しかし、調整の方向は数学的に確立されておらず、定量的に評価することが困難である。
– 我々は、この方向を、決定空間で最も近い不正確なクラスのサポートポイントに向かっているベクトルの方向として定義し、adversarial training後にこの方向とのアライメントを評価するためのメトリックを提案している。
– 我々のメトリックは、生成的adversarial networksを使用して、画像に存在するクラスを変更するために必要な最小残差を生成するメトリックであり、PGDで訓練されたモデルは、我々の定義に従ってベースラインよりも高いアライメントを持ち、我々のメトリックは、競合するメトリックの式よりも高いアライメント値を示し、このアライメントを強制することがモデルの頑強性を向上させることを示している。

要約(オリジナル)

Adversarial training, especially projected gradient descent (PGD), has proven to be a successful approach for improving robustness against adversarial attacks. After adversarial training, gradients of models with respect to their inputs have a preferential direction. However, the direction of alignment is not mathematically well established, making it difficult to evaluate quantitatively. We propose a novel definition of this direction as the direction of the vector pointing toward the closest point of the support of the closest inaccurate class in decision space. To evaluate the alignment with this direction after adversarial training, we apply a metric that uses generative adversarial networks to produce the smallest residual needed to change the class present in the image. We show that PGD-trained models have a higher alignment than the baseline according to our definition, that our metric presents higher alignment values than a competing metric formulation, and that enforcing this alignment increases the robustness of models.

arxiv情報

著者 Ricardo Bigolin Lanfredi,Joyce D. Schroeder,Tolga Tasdizen
発行日 2023-04-20 02:03:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク