How many dimensions are required to find an adversarial example?

要約

敵対者の脆弱性を調査する過去の研究は、敵対者がモデル入力のすべての次元を乱す可能性がある状況に焦点を当ててきました。
一方、最近の一連の研究では、(i) 敵対者が限られた数の入力パラメーターを乱す可能性がある場合、または (ii) マルチモーダル問題におけるモダリティのサブセットの場合を考慮しています。
これらのケースの両方で、敵対的な例は、周囲の入力空間 $\mathcal{X}$ 内の部分空間 $V$ に効果的に制約されます。
これに動機付けられて、この作業では、敵対的脆弱性が $\dim(V)$ にどのように依存するかを調査します。
特に、$\ell^p$ ノルム制約を伴う標準 PGD 攻撃の敵対的成功は、$\epsilon (\frac{\dim(V)}{\dim \mathcal{X}
})^{\frac{1}{q}}$ ここで、$\epsilon$ は摂動バジェットであり、$\frac{1}{p} + \frac{1}{q} =1$ で、$p >
1$ ($p=1$ の場合は、詳細に分析する追加の微妙な点を示します)。
この関数形式は、単純なおもちゃの線形モデルから簡単に導き出すことができます。そのため、私たちの結果は、敵対的な例が高次元空間の局所線形モデルに固有のものであるという議論にさらなる信憑性をもたらします。

要約(オリジナル)

Past work exploring adversarial vulnerability have focused on situations where an adversary can perturb all dimensions of model input. On the other hand, a range of recent works consider the case where either (i) an adversary can perturb a limited number of input parameters or (ii) a subset of modalities in a multimodal problem. In both of these cases, adversarial examples are effectively constrained to a subspace $V$ in the ambient input space $\mathcal{X}$. Motivated by this, in this work we investigate how adversarial vulnerability depends on $\dim(V)$. In particular, we show that the adversarial success of standard PGD attacks with $\ell^p$ norm constraints behaves like a monotonically increasing function of $\epsilon (\frac{\dim(V)}{\dim \mathcal{X}})^{\frac{1}{q}}$ where $\epsilon$ is the perturbation budget and $\frac{1}{p} + \frac{1}{q} =1$, provided $p > 1$ (the case $p=1$ presents additional subtleties which we analyze in some detail). This functional form can be easily derived from a simple toy linear model, and as such our results land further credence to arguments that adversarial examples are endemic to locally linear models on high dimensional spaces.

arxiv情報

著者 Charles Godfrey,Henry Kvinge,Elise Bishoff,Myles Mckay,Davis Brown,Tim Doster,Eleanor Byler
発行日 2023-03-24 17:36:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.CR, cs.LG, G.3, stat.ML パーマリンク