Revisiting adapters with adversarial training

要約

敵対的トレーニングは一般的に防御メカニズムとして使用されますが、最近の研究では、正則化としても機能することが示されています。
クリーンな入力と敵対的な入力でニューラル ネットワークを共同トレーニングすることにより、クリーンな非敵対的な入力の分類精度を向上させることができます。
以前の調査結果とは対照的に、クリーンな入力と敵対的な入力の共同トレーニング時にバッチ統計を分離する必要はなく、入力の種類ごとにドメイン固有のパラメーターがほとんどないアダプターを使用するだけで十分であることを示しています。
ビジョン トランスフォーマー (ViT) の分類トークンをアダプターとして使用することで、デュアル正規化レイヤーの分類パフォーマンスに匹敵するのに十分であり、使用する追加パラメーターが大幅に少なくなることを確立します。
まず、非敵対的にトレーニングされた ViT-B16 モデルのトップ 1 精度を ImageNet で +1.12% 向上させます (トップ 1 精度は 83.76% に達します)。
次に、さらに重要なこととして、アダプターを使用したトレーニングにより、クリーン トークンと敵対的トークンの線形結合によってモデル スープが可能になることを示します。
これらのモデル スープ (敵対的モデル スープと呼ぶ) を使用すると、効率を犠牲にすることなく、クリーンな精度と堅牢な精度の間でトレードオフを行うことができます。
最後に、分布の変化に直面して、結果のモデルを簡単に適応できることを示します。
当社の ViT-B16 は、ImageNet バリアントでトップ 1 の精度を取得します。これは、Masked Autoencoders で得られる精度よりも平均で +4.00% 優れています。

要約(オリジナル)

While adversarial training is generally used as a defense mechanism, recent works show that it can also act as a regularizer. By co-training a neural network on clean and adversarial inputs, it is possible to improve classification accuracy on the clean, non-adversarial inputs. We demonstrate that, contrary to previous findings, it is not necessary to separate batch statistics when co-training on clean and adversarial inputs, and that it is sufficient to use adapters with few domain-specific parameters for each type of input. We establish that using the classification token of a Vision Transformer (ViT) as an adapter is enough to match the classification performance of dual normalization layers, while using significantly less additional parameters. First, we improve upon the top-1 accuracy of a non-adversarially trained ViT-B16 model by +1.12% on ImageNet (reaching 83.76% top-1 accuracy). Second, and more importantly, we show that training with adapters enables model soups through linear combinations of the clean and adversarial tokens. These model soups, which we call adversarial model soups, allow us to trade-off between clean and robust accuracy without sacrificing efficiency. Finally, we show that we can easily adapt the resulting models in the face of distribution shifts. Our ViT-B16 obtains top-1 accuracies on ImageNet variants that are on average +4.00% better than those obtained with Masked Autoencoders.

arxiv情報

著者 Sylvestre-Alvise Rebuffi,Francesco Croce,Sven Gowal
発行日 2022-10-10 17:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク