Can CNNs Be More Robust Than Transformers?

要約

Vision Transformersの最近の成功は、10年にわたる画像認識におけるCNN(Convolutional Neural Networks)の長い支配を揺るがすものである。具体的には、分布外のサンプルに対する頑健性という点で、最近の研究では、異なる学習設定に関わらず、トランスフォーマーはCNNよりも本質的に頑健であることが判明しています。さらに、このようなTransformerの優位性は、その自己注視型アーキテクチャそれ自体に大きく起因すると考えられている。本論文では、Transformerの設計を詳細に検討することで、この信念に疑問を投げかける。その結果、数行のコードで実装できるほど簡単でありながら、頑健性を高めるために非常に有効な3つのアーキテクチャ設計、すなわち、a) 入力画像のパッチ化、b) カーネルサイズの拡大、c) 活性化層と正規化層の削減を導き出した。これらの要素を組み合わせることで、我々はTransformersと同等かそれ以上の頑健性を持つ、注意に似た操作を一切行わない純粋なCNNアーキテクチャを構築することができる。この研究が、ロバストなニューラル・アーキテクチャの設計をより良く理解するための一助となることを期待しています。コードは https://github.com/UCSC-VLAA/RobustCNN で一般に公開されています。

要約(オリジナル)

The recent success of Vision Transformers is shaking the long dominance of Convolutional Neural Networks (CNNs) in image recognition for a decade. Specifically, in terms of robustness on out-of-distribution samples, recent research finds that Transformers are inherently more robust than CNNs, regardless of different training setups. Moreover, it is believed that such superiority of Transformers should largely be credited to their self-attention-like architectures per se. In this paper, we question that belief by closely examining the design of Transformers. Our findings lead to three highly effective architecture designs for boosting robustness, yet simple enough to be implemented in several lines of code, namely a) patchifying input images, b) enlarging kernel size, and c) reducing activation layers and normalization layers. Bringing these components together, we are able to build pure CNN architectures without any attention-like operations that is as robust as, or even more robust than, Transformers. We hope this work can help the community better understand the design of robust neural architectures. The code is publicly available at https://github.com/UCSC-VLAA/RobustCNN.

arxiv情報

著者 Zeyu Wang,Yutong Bai,Yuyin Zhou,Cihang Xie
発行日 2022-06-07 17:17:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク