Learning to Estimate Shapley Values with Vision Transformers

要約

トランスフォーマーは、コンピューター ビジョンの既定のアーキテクチャになっていますが、その予測を駆動するものを理解することは依然として困難な問題です。
現在の説明アプローチは注意値または入力勾配に依存していますが、これらはモデルの依存関係を限定的に理解しています。
Shapley 値は、理論的には適切な代替手段を提供しますが、その計算コストにより、大規模で高次元のモデルには実用的ではありません。
この作業では、Shapley 値をビジョン トランスフォーマー (ViT) にとって実用的なものにすることを目指しています。
そのために、まずアテンション マスキング アプローチを活用して ViT を部分的な情報で評価し、次に別の学習済み説明モデルを介して Shapley 値の説明を生成する手順を開発します。
私たちの実験では、Shapley 値を多くのベースライン メソッド (アテンション ロールアウト、GradCAM、LRP など) と比較しており、私たちのアプローチが ViT の既存の方法よりも正確な説明を提供することがわかりました。

要約(オリジナル)

Transformers have become a default architecture in computer vision, but understanding what drives their predictions remains a challenging problem. Current explanation approaches rely on attention values or input gradients, but these provide a limited understanding of a model’s dependencies. Shapley values offer a theoretically sound alternative, but their computational cost makes them impractical for large, high-dimensional models. In this work, we aim to make Shapley values practical for vision transformers (ViTs). To do so, we first leverage an attention masking approach to evaluate ViTs with partial information, and we then develop a procedure for generating Shapley value explanations via a separate, learned explainer model. Our experiments compare Shapley values to many baseline methods (e.g., attention rollout, GradCAM, LRP), and we find that our approach provides more accurate explanations than existing methods for ViTs.

arxiv情報

著者 Ian Covert,Chanwoo Kim,Su-In Lee
発行日 2022-09-30 08:49:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク