要約
分類作業における予測の不確かさは、しばしばモデルの不備や不十分な学習データの結果である。画像処理などの一般的なアプリケーションでは、これらの不確実性を入力特徴に意味的に帰着させ、精査することがしばしば要求されます。これは、解釈可能性評価の向上に役立つ。しかし、この目的のための効果的なフレームワークはほとんど存在しない。SHAPや統合勾配のような顕著性マスクの提供のための一般的な方法のバニラ形態は、不確実性のターゲット測定にうまく適応しない。そのため、最新のツールでは、反事実的または敵対的な特徴ベクトルを作成し、元の画像との直接比較によって帰属を割り当てるという方法をとっている。本論文では、観測可能な人工物やノイズをほとんど含まない帰属情報を得るために、パス積分、人工物説明、生成モデルを組み合わせた新しい枠組みを提案する。我々は、一般的なベンチマーク手法と様々な複雑さのデータセットを用いた定量的評価により、この手法が既存の代替手法を凌駕することを証明する。
要約(オリジナル)
Predictive uncertainties in classification tasks are often a consequence of model inadequacy or insufficient training data. In popular applications, such as image processing, we are often required to scrutinise these uncertainties by meaningfully attributing them to input features. This helps to improve interpretability assessments. However, there exist few effective frameworks for this purpose. Vanilla forms of popular methods for the provision of saliency masks, such as SHAP or integrated gradients, adapt poorly to target measures of uncertainty. Thus, state-of-the-art tools instead proceed by creating counterfactual or adversarial feature vectors, and assign attributions by direct comparison to original images. In this paper, we present a novel framework that combines path integrals, counterfactual explanations and generative models, in order to procure attributions that contain few observable artefacts or noise. We evidence that this outperforms existing alternatives through quantitative evaluations with popular benchmarking methods and data sets of varying complexity.
arxiv情報
著者 | Iker Perez,Piotr Skalski,Alec Barns-Graham,Jason Wong,David Sutton |
発行日 | 2022-06-08 16:10:21+00:00 |
arxivサイト | arxiv_id(pdf) |