Rethinking interpretation: Input-agnostic saliency mapping of deep visual classifiers

要約

タイトル:ディープビジュアルクラシファイアーの入力に依存しない顕著性マッピングの再考:解釈の問題

要約:
– 現在、顕著性手法は入力特徴をモデルの出力に帰属させることで、モデルの解釈を行っている。しかし、この方法は単一の入力サンプルを使用するため、モデルについて入力に依存しない問いに答えることができない。
– また、入力特異的な顕著性マッピングは誤った特徴帰属に陥りやすいことが示された。
– 現在の一般的な入力特徴を使用したモデルの解釈の試みは、それらの特徴を含むデータセットにアクセスすることを前提としており、解釈にバイアスを与える可能性がある。
– このギャップに対処するため、制限のないデータ分布に対するモデルの勾配情報を蓄積して、モデルがその出力に帰属させる高レベルな特徴を計算する入力に依存しない顕著性マッピングの新しい考え方を紹介する。
– これらの特徴は幾何学的に相関し、人間が理解できる概念(クラスラベルなど)に関連付けられた局所最小値に向かって独立したデータポイントをモデルの損失表面上で動かすことで計算される。
– 系統的な射影、スケーリング、改良プロセスを用いて、この情報をモデルの忠実度を損なうことなく解釈可能な可視化に変換する。この可視化は独自の定性的な解釈として役立つ。
– 大規模モデルのさまざまな概念のために成功した可視化を示すとともに、侵害されたクラス分類器のバックドア署名を識別するという興味深い顕著性マッピングの新しい形態の有用性を紹介する。

要約(オリジナル)

Saliency methods provide post-hoc model interpretation by attributing input features to the model outputs. Current methods mainly achieve this using a single input sample, thereby failing to answer input-independent inquiries about the model. We also show that input-specific saliency mapping is intrinsically susceptible to misleading feature attribution. Current attempts to use ‘general’ input features for model interpretation assume access to a dataset containing those features, which biases the interpretation. Addressing the gap, we introduce a new perspective of input-agnostic saliency mapping that computationally estimates the high-level features attributed by the model to its outputs. These features are geometrically correlated, and are computed by accumulating model’s gradient information with respect to an unrestricted data distribution. To compute these features, we nudge independent data points over the model loss surface towards the local minima associated by a human-understandable concept, e.g., class label for classifiers. With a systematic projection, scaling and refinement process, this information is transformed into an interpretable visualization without compromising its model-fidelity. The visualization serves as a stand-alone qualitative interpretation. With an extensive evaluation, we not only demonstrate successful visualizations for a variety of concepts for large-scale models, but also showcase an interesting utility of this new form of saliency mapping by identifying backdoor signatures in compromised classifiers.

arxiv情報

著者 Naveed Akhtar,Mohammad A. A. K. Jalwana
発行日 2023-03-31 06:58:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク