要約
深層学習分類子に対してターゲットを絞った敵対的な例を作成するためにこれまでに提案されているアプローチのほとんどは、非常に最適ではなく、通常はターゲット クラスの可能性を高めることに依存しているため、暗黙的にワンホット エンコーディング設定に焦点を当てています。
この論文では、潜在空間表現を移動するために必要な (入力空間での) 労力を考慮した、ヤコビアン誘起マハラノビス距離 (JMA) 項の最小化に頼る、より一般的で理論的に健全な標的型攻撃を提案します。
指定された方向の入力サンプルの。
最小化は、Wolfe の双対定理を利用して問題を非負最小二乗 (NNLS) 問題の解に還元することによって解決されます。
提案されたアルゴリズムは、Szegedy らによって最初に導入された敵対例問題の線形化バージョンに対する最適な解決策を提供します。
\cite{szegedy2013興味深い}。
私たちが実行した実験により、提案された攻撃の一般性が確認され、さまざまな出力エンコーディング スキームの下で効果的であることが証明されました。
注目すべきことに、JMA 攻撃は複数ラベル分類シナリオでも効果的であり、20 個のラベルを含む複雑な複数ラベル分類シナリオで最大半分のラベルを対象とした変更を誘発することができますが、この機能はすべての攻撃が及ばないものです。
これまでに提案されました。
さらなる利点として、JMA 攻撃は通常、反復回数が非常に少ないため、既存の方法よりも効率的になります。
要約(オリジナル)
Most of the approaches proposed so far to craft targeted adversarial examples against Deep Learning classifiers are highly suboptimal and typically rely on increasing the likelihood of the target class, thus implicitly focusing on one-hot encoding settings. In this paper, we propose a more general, theoretically sound, targeted attack that resorts to the minimization of a Jacobian-induced MAhalanobis distance (JMA) term, taking into account the effort (in the input space) required to move the latent space representation of the input sample in a given direction. The minimization is solved by exploiting the Wolfe duality theorem, reducing the problem to the solution of a Non-Negative Least Square (NNLS) problem. The proposed algorithm provides an optimal solution to a linearized version of the adversarial example problem originally introduced by Szegedy et al. \cite{szegedy2013intriguing}. The experiments we carried out confirm the generality of the proposed attack which is proven to be effective under a wide variety of output encoding schemes. Noticeably, the JMA attack is also effective in a multi-label classification scenario, being capable to induce a targeted modification of up to half the labels in a complex multilabel classification scenario with 20 labels, a capability that is out of reach of all the attacks proposed so far. As a further advantage, the JMA attack usually requires very few iterations, thus resulting more efficient than existing methods.
arxiv情報
著者 | Benedetta Tondi,Wei Guo,Mauro Barni |
発行日 | 2024-01-02 13:03:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google