Do Concept Bottleneck Models Obey Locality?

要約

概念ベースの学習は、人間が理解できる概念を介して予測を説明することで、深層学習モデルの解釈可能性を向上させます。
このパラダイムの下でトレーニングされた深層学習モデルは、ニューラル ネットワークが他の概念とは独立して特定の概念の有無を予測することを学習できるという仮定に大きく依存しています。
しかし、最近の研究では、この仮定が、概念ベースの解釈可能なアーキテクチャの典型的なファミリーであるコンセプト ボトルネック モデル (CBM) では成り立たない可能性があることが強く示唆されています。
この論文では、CBM が、そのような概念が特徴の固定サブセットによって完全に定義された値を持つことによって空間的に局所化されている場合と、その値が固定されたサブセットとのみ相関することによって意味論的に局所化されている場合に、概念間の条件付き独立性の程度を正確に捕捉するかどうかを調査します。
事前定義された概念のサブセット。
局所性を理解するために、概念の空間的または意味論的な局所性の外側にある特徴への変更が概念の予測にどのような影響を与えるかを分析します。
私たちの結果は、概念の存在が固定特徴部分空間に局在化している、またはそのセマンティクスが他の概念の小さなサブセットと相関しているような、明確に定義されたシナリオであっても、CBM がこの局所性を学習できないことを示唆しています。
これらの結果は、CBMによって学習された概念表現の質に疑問を投げかけ、概念に基づく説明がその局所外の変化に対して脆弱である可能性があることを強く示唆しています。

要約(オリジナル)

Concept-based learning improves a deep learning model’s interpretability by explaining its predictions via human-understandable concepts. Deep learning models trained under this paradigm heavily rely on the assumption that neural networks can learn to predict the presence or absence of a given concept independently of other concepts. Recent work, however, strongly suggests that this assumption may fail to hold in Concept Bottleneck Models (CBMs), a quintessential family of concept-based interpretable architectures. In this paper, we investigate whether CBMs correctly capture the degree of conditional independence across concepts when such concepts are localised both spatially, by having their values entirely defined by a fixed subset of features, and semantically, by having their values correlated with only a fixed subset of predefined concepts. To understand locality, we analyse how changes to features outside of a concept’s spatial or semantic locality impact concept predictions. Our results suggest that even in well-defined scenarios where the presence of a concept is localised to a fixed feature subspace, or whose semantics are correlated to a small subset of other concepts, CBMs fail to learn this locality. These results cast doubt upon the quality of concept representations learnt by CBMs and strongly suggest that concept-based explanations may be fragile to changes outside their localities.

arxiv情報

著者 Naveen Raman,Mateo Espinosa Zarlenga,Juyeon Heo,Mateja Jamnik
発行日 2024-01-02 16:05:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク