要約
コンセプトボトルネックモデル(CBMS)などの概念ベースの説明方法は、そのような概念がネットワークの機能空間に正確に起因する可能性があるという重要な仮定の下で、意思決定を人間に理解しやすい概念にリンクすることにより、機械学習モデルの解釈可能性を改善することを目的としています。
。
ただし、この基本的な仮定は、主にこのような概念の存在と空間的整合を評価するための標準化されたメトリックとベンチマークがないため、厳密に検証されていません。
これに対処するために、3つのメトリックを提案します。グローバルな重要なメトリック、概念の存在メトリック、および概念の位置指標、つまり概念のアクティブ化を視覚化する手法、つまり概念のアクティブ化マッピングです。
能力と課題を説明するために、事後のCBMをベンチマークします。
定性的および定量的実験を通じて、多くの場合、事後CBMによって決定される最も重要な概念でさえ、入力画像には存在しないことを実証します。
さらに、それらが存在する場合、彼らの顕著性マップは、オブジェクト全体をアクティブにするか、関連する概念固有の領域を誤認することにより、予想される領域と一致しません。
概念の自然な相関など、これらの制限の根本原因を分析します。
私たちの調査結果は、特に空間的な解釈可能性が重要な設定で、概念ベースの説明手法をより慎重に適用する必要性を強調しています。
要約(オリジナル)
Concept-based explanation methods, such as concept bottleneck models (CBMs), aim to improve the interpretability of machine learning models by linking their decisions to human-understandable concepts, under the critical assumption that such concepts can be accurately attributed to the network’s feature space. However, this foundational assumption has not been rigorously validated, mainly because the field lacks standardised metrics and benchmarks to assess the existence and spatial alignment of such concepts. To address this, we propose three metrics: the concept global importance metric, the concept existence metric, and the concept location metric, including a technique for visualising concept activations, i.e., concept activation mapping. We benchmark post-hoc CBMs to illustrate their capabilities and challenges. Through qualitative and quantitative experiments, we demonstrate that, in many cases, even the most important concepts determined by post-hoc CBMs are not present in input images; moreover, when they are present, their saliency maps fail to align with the expected regions by either activating across an entire object or misidentifying relevant concept-specific regions. We analyse the root causes of these limitations, such as the natural correlation of concepts. Our findings underscore the need for more careful application of concept-based explanation techniques especially in settings where spatial interpretability is critical.
arxiv情報
著者 | Halil Ibrahim Aysel,Xiaohao Cai,Adam Prugel-Bennett |
発行日 | 2025-01-31 16:32:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google