要約
深層学習のロバスト性に関する最近の研究では、ビジョン トランスフォーマー (ViT) が、自然破壊や敵対的攻撃などの摂動下で畳み込みニューラル ネットワーク (CNN) を上回ることが示されています。一部の論文では、ViT の優れたロバスト性は、
その入力画像のセグメンテーション;
マルチヘッド自己注意 (MSA) が堅牢性を維持するための鍵であると言う人もいます。
このホワイト ペーパーでは、ViT の堅牢性に関するこのような議論を調査するために、原則的で統一された理論的フレームワークを導入することを目的としています。
まず、自然言語処理のトランスフォーマーとは異なり、ViT はリプシッツ連続であることを理論的に証明します。
次に、コーシー問題の観点から ViT の敵対的ロバスト性を理論的に分析します。これにより、ロバスト性がレイヤーを介してどのように伝播するかを定量化できます。
最初と最後のレイヤーが ViT の堅牢性に影響を与える重要な要素であることを示します。
さらに、私たちの理論に基づいて、既存の研究からの主張とは異なり、MSA は FGSM などの弱い敵対的攻撃下での ViT の敵対的堅牢性にのみ寄与し、驚くべきことに、MSA は実際には、より強力な攻撃下でのモデルの敵対的堅牢性を構成することを経験的に示しています。
例えば、PGD 攻撃。
要約(オリジナル)
Recent research on the robustness of deep learning has shown that Vision Transformers (ViTs) surpass the Convolutional Neural Networks (CNNs) under some perturbations, e.g., natural corruption, adversarial attacks, etc. Some papers argue that the superior robustness of ViT comes from the segmentation of its input images; others say that the Multi-head Self-Attention (MSA) is the key to preserving the robustness. In this paper, we aim to introduce a principled and unified theoretical framework to investigate such an argument on ViT’s robustness. We first theoretically prove that, unlike Transformers in Natural Language Processing, ViTs are Lipschitz continuous. Then we theoretically analyze the adversarial robustness of ViTs from the perspective of the Cauchy Problem, via which we can quantify how the robustness propagates through layers. We demonstrate that the first and last layers are the critical factors to affect the robustness of ViTs. Furthermore, based on our theory, we empirically show that unlike the claims from existing research, MSA only contributes to the adversarial robustness of ViTs under weak adversarial attacks, e.g., FGSM, and surprisingly, MSA actually comprises the model’s adversarial robustness under stronger attacks, e.g., PGD attacks.
arxiv情報
著者 | Zheng Wang,Wenjie Ruan |
発行日 | 2022-08-01 14:50:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google