要約
ディープラーニング モデルの堅牢性を強化することは、特にビジョン トランスフォーマー (ViT) の領域において、実世界への展開にとって重要です。
この研究では、線形代数のゼロ空間の概念に触発されたビジョン トランスフォーマーの堅牢性を強化するための微調整アプローチを提供します。
私たちの研究は、ビジョン トランスフォーマーが線形マッピングのヌル空間プロパティに似た入力変動に対する回復力を示すことができるかどうかに焦点を当てています。これは、このヌル空間からサンプリングされた摂動が入力に追加されたときにモデルの出力に影響を与えないことを意味します。
まず、多くの事前学習済み ViT では、パッチ埋め込み層の存在により自明ではないヌル空間が存在することを示します。
次に、ヌル空間は線形代数に関連する概念であるため、最適化戦略を使用して ViT の非線形ブロックの近似ヌル空間要素を合成できることを示します。
最後に、合成された近似ヌル空間ノイズでトレーニング データを強化する、ViT の微調整戦略を提案します。
微調整後、このモデルは敵対的な画像の置換と自然の画像の置換に対して同様に堅牢性を示していることがわかりました。
要約(オリジナル)
Enhancing the robustness of deep learning models, particularly in the realm of vision transformers (ViTs), is crucial for their real-world deployment. In this work, we provide a finetuning approach to enhance the robustness of vision transformers inspired by the concept of nullspace from linear algebra. Our investigation centers on whether a vision transformer can exhibit resilience to input variations akin to the nullspace property in linear mappings, implying that perturbations sampled from this nullspace do not influence the model’s output when added to the input. Firstly, we show that for many pretrained ViTs, a non-trivial nullspace exists due to the presence of the patch embedding layer. Secondly, as nullspace is a concept associated with linear algebra, we demonstrate that it is possible to synthesize approximate nullspace elements for the non-linear blocks of ViTs employing an optimisation strategy. Finally, we propose a fine-tuning strategy for ViTs wherein we augment the training data with synthesized approximate nullspace noise. After finetuning, we find that the model demonstrates robustness to adversarial and natural image perbutations alike.
arxiv情報
著者 | Haoyang Liu,Aditya Singh,Yijiang Li,Haohan Wang |
発行日 | 2024-03-15 17:07:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google