On-Manifold Projected Gradient Descent

要約

この研究は、入力空間からこれらのクラス多様体への非線形射影とともに、高次元データのクラス多様体の微分幾何学に対する計算可能で直接的な数学的に厳密な近似を提供します。
これらのツールはニューラル ネットワーク画像分類器の設定に適用され、新しいオンマニホールド データ サンプルを生成し、オンマニホールド敵対的トレーニング用の投影勾配降下法アルゴリズムを実装します。
敵対的攻撃に対するニューラル ネットワーク (NN) の脆弱性は、入力空間における NN 決定境界の脆弱な性質を浮き彫りにします。
トレーニング中に敵対的な例を導入すると、NN の敵対的な攻撃に対する感受性が低下することが示されています。
ただし、サンプルがそのクラスにとって有効なサンプルでない場合、分類子の精度が低下することもわかっています。
現実的な「多様体上」の例は、オートエンコーダーの潜在的なクラス多様体から以前に生成されています。
私たちの研究では、VAE やその他のブラック ボックスの次元削減によって提供できるものよりも、生の高次元入力空間にはるかに近い幾何学的および計算的設定でこれらの現象を調査します。
共形不変拡散マップ (CIDM) を使用して拡散座標のクラス多様体を近似し、この設定で新しい点をクラス多様体に投影する Nystr\'{o}m 射影を開発します。
多様体近似に加えて、スペクトル外部計算 (SEC) を活用して、多様体の接線ベクトルなどの幾何学的量を決定します。
これらのツールを使用して、クラス多様体上に存在する敵対的な例を取得しますが、分類子を欺きます。
これらの誤分類は、多様体上の敵対者を多様体上の意味論的基盤で表現することによって、データ内で人間が理解できる操作の観点から説明可能になります。

要約(オリジナル)

This work provides a computable, direct, and mathematically rigorous approximation to the differential geometry of class manifolds for high-dimensional data, along with nonlinear projections from input space onto these class manifolds. The tools are applied to the setting of neural network image classifiers, where we generate novel, on-manifold data samples, and implement a projected gradient descent algorithm for on-manifold adversarial training. The susceptibility of neural networks (NNs) to adversarial attack highlights the brittle nature of NN decision boundaries in input space. Introducing adversarial examples during training has been shown to reduce the susceptibility of NNs to adversarial attack; however, it has also been shown to reduce the accuracy of the classifier if the examples are not valid examples for that class. Realistic ‘on-manifold’ examples have been previously generated from class manifolds in the latent of an autoencoder. Our work explores these phenomena in a geometric and computational setting that is much closer to the raw, high-dimensional input space than can be provided by VAE or other black box dimensionality reductions. We employ conformally invariant diffusion maps (CIDM) to approximate class manifolds in diffusion coordinates, and develop the Nystr\'{o}m projection to project novel points onto class manifolds in this setting. On top of the manifold approximation, we leverage the spectral exterior calculus (SEC) to determine geometric quantities such as tangent vectors of the manifold. We use these tools to obtain adversarial examples that reside on a class manifold, yet fool a classifier. These misclassifications then become explainable in terms of human-understandable manipulations within the data, by expressing the on-manifold adversary in the semantic basis on the manifold.

arxiv情報

著者 Aaron Mahler,Tyrus Berry,Tom Stephens,Harbir Antil,Michael Merritt,Jeanie Schreiber,Ioannis Kevrekidis
発行日 2023-08-23 17:50:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA パーマリンク