VISION DIFFMASK: Faithful Interpretation of Vision Transformers with Differentiable Patch Masking

要約

タイトル:VISION DIFFMASK:Differentiable Patch Maskingを使用したビジョントランスフォーマーの信頼できる解釈

要約:
– ビジョントランスフォーマーの解釈性の欠如は、その効果にもかかわらず、クリティカルな現実世界のアプリケーションでの使用を妨げる可能性があります。
– この問題を克服するために、我々はVISION DIFFMASKというポストホックの解釈性手法を提案します。この手法は、モデルの隠れ層の活性化を使用して、最終的な予測に寄与する入力の関連部分を予測します。
– 我々の手法は、ゲーティングメカニズムを使用して、予測されたクラス分布を保存するために必要な最小の元の入力のサブセットを特定します。
– 我々は信頼性の課題を導入し、CIFAR-10およびImageNet-1Kで他の最新の属性付与手法と比較し、魅力的な結果を達成することで、我々の手法の信頼性を示します。
– 我々の研究を再現可能にし、さらなる拡張を促進するために、私たちは私たちの実装をオープンソース化しました。:https://github.com/AngelosNal/Vision-DiffMask

要約(オリジナル)

The lack of interpretability of the Vision Transformer may hinder its use in critical real-world applications despite its effectiveness. To overcome this issue, we propose a post-hoc interpretability method called VISION DIFFMASK, which uses the activations of the model’s hidden layers to predict the relevant parts of the input that contribute to its final predictions. Our approach uses a gating mechanism to identify the minimal subset of the original input that preserves the predicted distribution over classes. We demonstrate the faithfulness of our method, by introducing a faithfulness task, and comparing it to other state-of-the-art attribution methods on CIFAR-10 and ImageNet-1K, achieving compelling results. To aid reproducibility and further extension of our work, we open source our implementation: https://github.com/AngelosNal/Vision-DiffMask

arxiv情報

著者 Angelos Nalmpantis,Apostolos Panagiotopoulos,John Gkountouras,Konstantinos Papakostas,Wilker Aziz
発行日 2023-04-13 10:49:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク