要約
近年の研究により、Vision Transformer(ViT)は様々な破損に対して強いロバスト性を示すことが分かってきた。この特性は、一部自己注意のメカニズムに起因するとされているが、体系的な理解はまだ不十分である。本論文では、頑健な表現の学習における自己注意の役割について考察する。本研究の動機は、Vision Transformersにおける新たな視覚的グループ化の興味深い特性から、自己注意が中間レベルの表現の改善を通じてロバスト性を促進する可能性を示していることである。さらに、注意チャネル処理設計を取り入れることで、この能力を強化した完全注意ネットワーク(FAN)ファミリーを提案する。我々は、この設計を様々な階層的バックボーン上で包括的に検証する。我々のモデルはImageNet-1kとImageNet-Cにおいて、76.8Mのパラメータで87.1%の精度と35.8%のmCEを達成することができた。また、セマンティックセグメンテーションとオブジェクト検出という2つのダウンストリームタスクにおいても、最先端の精度とロバスト性を実証している。コードは https://github.com/NVlabs/FAN で公開されています。
要約(オリジナル)
Recent studies show that Vision Transformers(ViTs) exhibit strong robustness against various corruptions. Although this property is partly attributed to the self-attention mechanism, there is still a lack of systematic understanding. In this paper, we examine the role of self-attention in learning robust representations. Our study is motivated by the intriguing properties of the emerging visual grouping in Vision Transformers, which indicates that self-attention may promote robustness through improved mid-level representations. We further propose a family of fully attentional networks (FANs) that strengthen this capability by incorporating an attentional channel processing design. We validate the design comprehensively on various hierarchical backbones. Our model achieves a state-of-the-art 87.1% accuracy and 35.8% mCE on ImageNet-1k and ImageNet-C with 76.8M parameters. We also demonstrate state-of-the-art accuracy and robustness in two downstream tasks: semantic segmentation and object detection. Code is available at: https://github.com/NVlabs/FAN.
arxiv情報
著者 | Daquan Zhou,Zhiding Yu,Enze Xie,Chaowei Xiao,Anima Anandkumar,Jiashi Feng,Jose M. Alvarez |
発行日 | 2022-11-08 15:52:39+00:00 |
arxivサイト | arxiv_id(pdf) |