Classifier Robustness Enhancement Via Test-Time Transformation

要約

最近、敵対的に訓練された分類子が、知覚的に整列された勾配 (PAG) と呼ばれる興味深い特性を示すことが発見されました。
PAG は、そのような分類器の勾配が、人間の知覚と一致する意味のある構造を持っていることを意味します。
敵対的トレーニングは、現在、敵対的攻撃の下で分類の堅牢性を達成するための最もよく知られている方法です。
ただし、PAG プロパティは、分類器の堅牢性をさらに向上させるためにまだ活用されていません。
この作業では、テスト時間変換 (TETRA) による分類子の堅牢性の強化を紹介します。これは、PAG を利用して、トレーニング済みの堅牢な分類子のパフォーマンスを強化する新しい防御方法です。
私たちの方法は2つの段階で動作します。
まず、指定された標的型敵対的攻撃を介して入力画像をデータセットの各クラスに変更します。
次に、最短距離が真のクラスに関連すると仮定して、変更された各インスタンスまでの距離に基づいて入力画像を分類します。
提案された方法が最先端の結果を達成し、さまざまな防御方法、分類子アーキテクチャ、およびデータセットに関する広範な実験を通じて主張を検証することを示します。
また、トレーニングでは見られないものを含む、さまざまな攻撃にわたって、TETRA が微分可能な敵対的トレーニング分類器の精度を高めることができることも経験的に示しています。
具体的には、TETRA を適用すると、CIFAR10、CIFAR100、および ImageNet でそれぞれ最大 $+23\%$、$+20\%$、および $+26\%$ の大幅な改善につながります。

要約(オリジナル)

It has been recently discovered that adversarially trained classifiers exhibit an intriguing property, referred to as perceptually aligned gradients (PAG). PAG implies that the gradients of such classifiers possess a meaningful structure, aligned with human perception. Adversarial training is currently the best-known way to achieve classification robustness under adversarial attacks. The PAG property, however, has yet to be leveraged for further improving classifier robustness. In this work, we introduce Classifier Robustness Enhancement Via Test-Time Transformation (TETRA) — a novel defense method that utilizes PAG, enhancing the performance of trained robust classifiers. Our method operates in two phases. First, it modifies the input image via a designated targeted adversarial attack into each of the dataset’s classes. Then, it classifies the input image based on the distance to each of the modified instances, with the assumption that the shortest distance relates to the true class. We show that the proposed method achieves state-of-the-art results and validate our claim through extensive experiments on a variety of defense methods, classifier architectures, and datasets. We also empirically demonstrate that TETRA can boost the accuracy of any differentiable adversarial training classifier across a variety of attacks, including ones unseen at training. Specifically, applying TETRA leads to substantial improvement of up to $+23\%$, $+20\%$, and $+26\%$ on CIFAR10, CIFAR100, and ImageNet, respectively.

arxiv情報

著者 Tsachi Blau,Roy Ganz,Chaim Baskin,Michael Elad,Alex Bronstein
発行日 2023-03-27 17:28:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク