要約
Vision Transformer は、畳み込みニューラル ネットワーク (CNN) のパフォーマンスを上回る、画像分類タスク用の強力なツールとして登場しました。
最近、多くの研究者が、敵対的な攻撃に対するトランスフォーマーの堅牢性を理解しようと試みています。
ただし、これまでの研究は空間領域の摂動のみに焦点を当てていました。
この論文では、スペクトル領域における周波数選択性の摂動に対するトランスフォーマーの敵対的な堅牢性を調査する追加の視点を提案します。
これら 2 つのドメイン間の比較を容易にするために、攻撃フレームワークは、空間およびスペクトル ドメインの画像に対する攻撃を実装するための柔軟なツールとして定式化されます。
実験により、トランスフォーマーは位相と低周波数の情報により多く依存しており、そのため、CNN よりも周波数選択的攻撃に対して脆弱になる可能性があることが明らかになりました。
この研究は、トランスフォーマーの特性と敵対的な堅牢性についての新たな洞察を提供します。
要約(オリジナル)
The Vision Transformer has emerged as a powerful tool for image classification tasks, surpassing the performance of convolutional neural networks (CNNs). Recently, many researchers have attempted to understand the robustness of Transformers against adversarial attacks. However, previous researches have focused solely on perturbations in the spatial domain. This paper proposes an additional perspective that explores the adversarial robustness of Transformers against frequency-selective perturbations in the spectral domain. To facilitate comparison between these two domains, an attack framework is formulated as a flexible tool for implementing attacks on images in the spatial and spectral domains. The experiments reveal that Transformers rely more on phase and low frequency information, which can render them more vulnerable to frequency-selective attacks than CNNs. This work offers new insights into the properties and adversarial robustness of Transformers.
arxiv情報
著者 | Gihyun Kim,Juyeop Kim,Jong-Seok Lee |
発行日 | 2023-12-15 18:41:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google