Fixing confirmation bias in feature attribution methods via semantic match

要約

特徴帰属手法は、ブラック ボックス モデルの複雑な動作を解きほぐすための主要な手法となっています。
成功にもかかわらず、一部の学者は、そのような方法には重大な欠陥があると主張しています。それは、人間の概念の観点から信頼できる解釈を可能にしないということです。
簡単に言うと、人間がモデルの内部表現について何らかの結論を下すには、一連の特徴寄与を視覚化するだけでは十分ではなく、確証バイアスによってユーザーがモデルの動作について誤った信念に陥る可能性があります。
私たちは、モデルに関する仮説が特徴の属性によって確認されるかどうかをテストするには、構造化されたアプローチが必要であると主張します。
これは、人間の概念と(部分象徴的な)説明の間の「意味論的一致」と呼ばれるものです。
Cin\`a et al. で提唱された概念的な枠組みに基づいて構築されています。
[2023]では、実際に意味的一致を評価するための構造化アプローチを提案します。
この手順を表データと画像データにわたる一連の実験で紹介し、セマンティック一致の評価によって望ましいモデルの動作 (例: 予測に関連するオブジェクトに焦点を当てる) と望ましくないモデルの動作 (例: 予測に関連するオブジェクトに焦点を当てる) の両方に対する洞察がどのように得られるかを示します。
偽の相関)。
私たちは実験結果と意味論的な一致を測定するためのメトリクスの分析を組み合わせ、このアプローチが XAI における確証バイアスの問題を解決するための第一歩であると主張します。

要約(オリジナル)

Feature attribution methods have become a staple method to disentangle the complex behavior of black box models. Despite their success, some scholars have argued that such methods suffer from a serious flaw: they do not allow a reliable interpretation in terms of human concepts. Simply put, visualizing an array of feature contributions is not enough for humans to conclude something about a model’s internal representations, and confirmation bias can trick users into false beliefs about model behavior. We argue that a structured approach is required to test whether our hypotheses on the model are confirmed by the feature attributions. This is what we call the ‘semantic match’ between human concepts and (sub-symbolic) explanations. Building on the conceptual framework put forward in Cin\`a et al. [2023], we propose a structured approach to evaluate semantic match in practice. We showcase the procedure in a suite of experiments spanning tabular and image data, and show how the assessment of semantic match can give insight into both desirable (e.g., focusing on an object relevant for prediction) and undesirable model behaviors (e.g., focusing on a spurious correlation). We couple our experimental results with an analysis on the metrics to measure semantic match, and argue that this approach constitutes the first step towards resolving the issue of confirmation bias in XAI.

arxiv情報

著者 Giovanni Cinà,Daniel Fernandez-Llaneza,Ludovico Deponte,Nishant Mishra,Tabea E. Röber,Sandro Pezzelle,Iacer Calixto,Rob Goedhart,Ş. İlker Birbil
発行日 2024-02-26 10:34:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク