要約
このホワイト ペーパーでは、ビジョン トランスフォーマー (ViT) が、回避攻撃に対する機械学習モデルの敵対的堅牢性を向上させるための基盤となるアーキテクチャとして機能できるかどうかを検討します。
以前の研究では畳み込みニューラル ネットワークの改善に焦点が当てられていましたが、ViT は競争力のあるパフォーマンスを達成するための敵対的トレーニングにも非常に適していることを示しています。
ImageNet データセットのサブセットに対する厳密なアブレーション研究を使用して発見された、カスタムの敵対的トレーニング レシピを使用して、この目的を達成します。
ViT の標準的なトレーニング レシピでは、畳み込みと比較した場合に、アテンション モジュールの視覚誘導バイアスの欠如を部分的に補うために、強力なデータ増強を推奨しています。
このレシピが敵対的トレーニングに使用された場合、次善のパフォーマンスを達成することを示します。
対照的に、すべての重いデータ拡張を省略し、いくつかの追加のトリック ($\varepsilon$ ウォームアップとより大きな重み減衰) を追加すると、堅牢な ViT のパフォーマンスが大幅に向上することがわかりました。
私たちのレシピがさまざまなクラスの ViT アーキテクチャと完全な ImageNet-1k の大規模モデルに一般化されることを示します。
さらに、モデルの堅牢性の理由を調査すると、レシピを使用するとトレーニング中に強力な攻撃を生成しやすくなり、テスト時の堅牢性が向上することがわかります。
最後に、敵対的摂動の意味論的性質を定量化し、モデルの堅牢性との相関関係を強調する方法を提案することにより、敵対的トレーニングの1つの結果をさらに研究します。
全体として、コミュニティは ViT の正規のトレーニング レシピを堅牢なトレーニングに変換することを避け、敵対的トレーニングのコンテキストで一般的なトレーニングの選択肢を再考することをお勧めします。
要約(オリジナル)
In this paper, we ask whether Vision Transformers (ViTs) can serve as an underlying architecture for improving the adversarial robustness of machine learning models against evasion attacks. While earlier works have focused on improving Convolutional Neural Networks, we show that also ViTs are highly suitable for adversarial training to achieve competitive performance. We achieve this objective using a custom adversarial training recipe, discovered using rigorous ablation studies on a subset of the ImageNet dataset. The canonical training recipe for ViTs recommends strong data augmentation, in part to compensate for the lack of vision inductive bias of attention modules, when compared to convolutions. We show that this recipe achieves suboptimal performance when used for adversarial training. In contrast, we find that omitting all heavy data augmentation, and adding some additional bag-of-tricks ($\varepsilon$-warmup and larger weight decay), significantly boosts the performance of robust ViTs. We show that our recipe generalizes to different classes of ViT architectures and large-scale models on full ImageNet-1k. Additionally, investigating the reasons for the robustness of our models, we show that it is easier to generate strong attacks during training when using our recipe and that this leads to better robustness at test time. Finally, we further study one consequence of adversarial training by proposing a way to quantify the semantic nature of adversarial perturbations and highlight its correlation with the robustness of the model. Overall, we recommend that the community should avoid translating the canonical training recipes in ViTs to robust training and rethink common training choices in the context of adversarial training.
arxiv情報
著者 | Edoardo Debenedetti,Vikash Sehwag,Prateek Mittal |
発行日 | 2023-02-02 15:23:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google