要約
Vision Transformers (ViT) と eXplainable AI (XAI) の人気にもかかわらず、これまでのところ、ViT 向けに特別に設計された説明手法はほんのわずかです。
これらは主にパッチの埋め込みに [CLS] トークンのアテンション ウェイトを使用し、満足のいかない顕著性マップを生成することがよくあります。
本稿では、ViT-CXと呼ばれるViTを説明するための新しい手法を提案します。
これは、パッチの埋め込みに注目するのではなく、パッチの埋め込みと、それらがモデル出力に与える因果関係に基づいています。
ViT-CX の設計では、因果的過剰決定などの ViT の他の特性も考慮されます。
経験的結果は、ViT-CX が以前の方法よりも意味のある顕著性マップを生成し、予測のすべての重要な証拠を明らかにする優れた仕事をすることを示しています。
ViT-CX によって生成された説明も、モデルに対する忠実性が大幅に向上していることがわかります。
コードと付録は https://github.com/vaynexie/CausalX-ViT で入手できます。
要約(オリジナル)
Despite the popularity of Vision Transformers (ViTs) and eXplainable AI (XAI), only a few explanation methods have been designed specially for ViTs thus far. They mostly use attention weights of the [CLS] token on patch embeddings and often produce unsatisfactory saliency maps. This paper proposes a novel method for explaining ViTs called ViT-CX. It is based on patch embeddings, rather than attentions paid to them, and their causal impacts on the model output. Other characteristics of ViTs such as causal overdetermination are also considered in the design of ViT-CX. The empirical results show that ViT-CX produces more meaningful saliency maps and does a better job revealing all important evidence for the predictions than previous methods. The explanation generated by ViT-CX also shows significantly better faithfulness to the model. The codes and appendix are available at https://github.com/vaynexie/CausalX-ViT.
arxiv情報
著者 | Weiyan Xie,Xiao-Hui Li,Caleb Chen Cao,Nevin L. Zhang |
発行日 | 2023-06-09 08:32:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google