Understanding The Robustness in Vision Transformers

要約

最近の研究では、ビジョン トランスフォーマー (ViTs) がさまざまな破損に対して強力なロバスト性を示すことが示されています。
この特性は部分的に自己注意メカニズムに起因すると考えられていますが、まだ体系的な理解が不足しています。
この論文では、ロバストな表現を学習する際の自己注意の役割を調べます。
私たちの研究は、Vision Transformers の新たな視覚的グループ化の興味深い特性によって動機付けられています。これは、自己注意が改善された中間レベルの表現を通じて堅牢性を促進する可能性があることを示しています。
さらに、注意チャネル処理設計を組み込むことでこの機能を強化する、完全注意ネットワーク (FAN) のファミリを提案します。
さまざまな階層バックボーンで設計を包括的に検証します。
私たちのモデルは、ImageNet-1k および ImageNet-C で 76.8M パラメーターを使用して、最先端の 87.1% の精度と 35.8% の mCE を達成しています。
また、セマンティック セグメンテーションとオブジェクト検出という 2 つのダウンストリーム タスクで最先端の精度と堅牢性を実証します。
コードは https://github.com/NVlabs/FAN で入手できます。

要約(オリジナル)

Recent studies show that Vision Transformers(ViTs) exhibit strong robustness against various corruptions. Although this property is partly attributed to the self-attention mechanism, there is still a lack of systematic understanding. In this paper, we examine the role of self-attention in learning robust representations. Our study is motivated by the intriguing properties of the emerging visual grouping in Vision Transformers, which indicates that self-attention may promote robustness through improved mid-level representations. We further propose a family of fully attentional networks (FANs) that strengthen this capability by incorporating an attentional channel processing design. We validate the design comprehensively on various hierarchical backbones. Our model achieves a state of-the-art 87.1% accuracy and 35.8% mCE on ImageNet-1k and ImageNet-C with 76.8M parameters. We also demonstrate state-of-the-art accuracy and robustness in two downstream tasks: semantic segmentation and object detection. Code will be available at https://github.com/NVlabs/FAN.

arxiv情報

著者 Daquan Zhou,Zhiding Yu,Enze Xie,Chaowei Xiao,Anima Anandkumar,Jiashi Feng,Jose M. Alvarez
発行日 2022-10-21 15:29:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク