Improving Interpretation Faithfulness for Vision Transformers

要約

ヴィジョン・トランスフォーマー(ViT)は、様々な視覚タスクにおいて最先端の性能を達成している。その成功の背景のひとつは、神経アーキテクチャの動作に対して、もっともらしい生得的な説明を提供する能力にある。しかし、ViTは説明の忠実性に問題がある。なぜなら、ViTの焦点は敵対的攻撃に対して脆弱であり、入力画像にわずかな摂動が加わっただけでも簡単に変化してしまうからである。本論文では、忠実なViT(FViT)を導入することで、これらの問題を軽減する厳密なアプローチを提案する。簡単に言えば、FViTは以下の2つの性質を持つべきである:(1)その自己注目ベクトルのトップ-$k$インデックスは入力摂動下でもほとんど変化せず、安定した説明を示すべきである、(2)予測分布は摂動に対してロバストであるべきである。(2)予測分布が摂動に対してロバストであること。これを達成するために、我々はランダム化スムージングと拡散に基づくノイズ除去を採用したDenoised Diffusion Smoothing (DDS)と呼ばれる新しい手法を提案する。DDSを用いてViTを直接処理することで、FViTに変換できることを理論的に証明する。また、$ell_2$と$ell_infty$ノルムの両方の場合において、ガウスノイズがほぼ最適であることを示す。最後に、包括的な実験と評価を通して、本アプローチの有効性を示す。その結果、FViTは注意の説明可能性を維持しつつ、敵対的攻撃に対してより頑健であり、より忠実であることが示された。

要約(オリジナル)

Vision Transformers (ViTs) have achieved state-of-the-art performance for various vision tasks. One reason behind the success lies in their ability to provide plausible innate explanations for the behavior of neural architectures. However, ViTs suffer from issues with explanation faithfulness, as their focal points are fragile to adversarial attacks and can be easily changed with even slight perturbations on the input image. In this paper, we propose a rigorous approach to mitigate these issues by introducing Faithful ViTs (FViTs). Briefly speaking, an FViT should have the following two properties: (1) The top-$k$ indices of its self-attention vector should remain mostly unchanged under input perturbation, indicating stable explanations; (2) The prediction distribution should be robust to perturbations. To achieve this, we propose a new method called Denoised Diffusion Smoothing (DDS), which adopts randomized smoothing and diffusion-based denoising. We theoretically prove that processing ViTs directly with DDS can turn them into FViTs. We also show that Gaussian noise is nearly optimal for both $\ell_2$ and $\ell_\infty$-norm cases. Finally, we demonstrate the effectiveness of our approach through comprehensive experiments and evaluations. Results show that FViTs are more robust against adversarial attacks while maintaining the explainability of attention, indicating higher faithfulness.

arxiv情報

著者 Lijie Hu,Yixin Liu,Ninghao Liu,Mengdi Huai,Lichao Sun,Di Wang
発行日 2024-05-03 15:49:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク