Improving Robustness for Vision Transformer with a Simple Dynamic Scanning Augmentation

要約

Vision Transformer (ViT) は、コンピューター ビジョン タスクにおいて、最先端のニューラル ネットワークに匹敵する有望なパフォーマンスを実証しました。
しかし、この新しいタイプのディープ ニューラル ネットワーク アーキテクチャは、敵対的な攻撃に対して脆弱であり、堅牢性の点でその機能が制限されています。
この記事では、特に敵対的攻撃に直面した場合の ViT の精度と堅牢性をさらに向上させることを目的とした新しい貢献を紹介します。
我々は、動的入力シーケンスを利用してさまざまなパッチに適応的に焦点を合わせ、それによってパフォーマンスと堅牢性を維持する「ダイナミック スキャン拡張」と呼ばれる拡張技術を提案します。
我々の詳細な調査により、入力シーケンスに対するこの適応性が、たとえ同じ画像であっても、ViT の注意メカニズムに大きな変化を引き起こすことが明らかになりました。
動的スキャン拡張の 4 つのバリエーションを紹介します。これは、敵対的な攻撃に対する堅牢性と自然画像に対する精度の両方の点で ViT を上回り、1 つのバリエーションは同等の結果を示しています。
強化技術を統合することにより、ViT の堅牢性が大幅に向上し、さまざまな種類の敵対的攻撃にわたって測定された値が $17\%$ から $92\%$ に向上したことがわかりました。
これらの発見は、他の包括的なテストと合わせて、ダイナミック スキャン拡張がより適応的なタイプの注意を促進することで精度と堅牢性を向上させることを示しています。
結論として、この研究は、ViT の精度と堅牢性を向上させる技術としてダイナミック スキャニング オーグメンテーションを導入することにより、ビジョン トランスフォーマーに関する進行中の研究に貢献します。
観察された結果は、コンピューター ビジョン タスクの進歩におけるこのアプローチの可能性を強調しており、今後の研究でさらに探究する価値があります。

要約(オリジナル)

Vision Transformer (ViT) has demonstrated promising performance in computer vision tasks, comparable to state-of-the-art neural networks. Yet, this new type of deep neural network architecture is vulnerable to adversarial attacks limiting its capabilities in terms of robustness. This article presents a novel contribution aimed at further improving the accuracy and robustness of ViT, particularly in the face of adversarial attacks. We propose an augmentation technique called `Dynamic Scanning Augmentation’ that leverages dynamic input sequences to adaptively focus on different patches, thereby maintaining performance and robustness. Our detailed investigations reveal that this adaptability to the input sequence induces significant changes in the attention mechanism of ViT, even for the same image. We introduce four variations of Dynamic Scanning Augmentation, outperforming ViT in terms of both robustness to adversarial attacks and accuracy against natural images, with one variant showing comparable results. By integrating our augmentation technique, we observe a substantial increase in ViT’s robustness, improving it from $17\%$ to $92\%$ measured across different types of adversarial attacks. These findings, together with other comprehensive tests, indicate that Dynamic Scanning Augmentation enhances accuracy and robustness by promoting a more adaptive type of attention. In conclusion, this work contributes to the ongoing research on Vision Transformers by introducing Dynamic Scanning Augmentation as a technique for improving the accuracy and robustness of ViT. The observed results highlight the potential of this approach in advancing computer vision tasks and merit further exploration in future studies.

arxiv情報

著者 Shashank Kotyan,Danilo Vasconcellos Vargas
発行日 2023-11-01 11:10:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク