要約
ResNetアーキテクチャやCIFARのような低解像度データセットでは、敵対的学習が広く研究されているが、ImageNetではあまり知られていない。最近、変換器がconvnetsよりも頑健かどうかが議論されていることから、ViTsとConvNeXtsを比較して、ImageNetの敵対的訓練を再検討する。広範な実験により、アーキテクチャの小さな変更、特にPatchStemをConvStemに置き換えること、およびトレーニングスキームが達成された頑健性に大きな影響を与えることが示された。これらの変更は、見た$ell_infty$-脅威モデルの頑健性を高めるだけでなく、見たことのない$ell_1/ell_2$-頑健性への汎化をさらに改善する。我々の修正したConvNeXt、ConvNeXt + ConvStemは、モデルパラメータとFLOPsの異なる範囲にわたって最も頑健なモデルをもたらす。
要約(オリジナル)
While adversarial training has been extensively studied for ResNet architectures and low resolution datasets like CIFAR, much less is known for ImageNet. Given the recent debate about whether transformers are more robust than convnets, we revisit adversarial training on ImageNet comparing ViTs and ConvNeXts. Extensive experiments show that minor changes in architecture, most notably replacing PatchStem with ConvStem, and training scheme have a significant impact on the achieved robustness. These changes not only increase robustness in the seen $\ell_\infty$-threat model, but even more so improve generalization to unseen $\ell_1/\ell_2$-robustness. Our modified ConvNeXt, ConvNeXt + ConvStem, yields the most robust models across different ranges of model parameters and FLOPs.
arxiv情報
著者 | Naman D Singh,Francesco Croce,Matthias Hein |
発行日 | 2023-03-03 11:53:01+00:00 |
arxivサイト | arxiv_id(pdf) |