Overlooked factors in concept-based explanations: Dataset choice, concept learnability, and human capability

要約

概念に基づく解釈可能性手法は、あらかじめ定義された意味的概念のセットを用いて、ディープニューラルネットワークのモデル予測を説明することを目的としています。これらの方法は、新しい「プローブ」データセットで訓練されたモデルを評価し、そのデータセットでラベル付けされた視覚的概念とモデル予測を関連付けます。その人気にもかかわらず、これらの方法は、文献でよく理解され明確化されていない制限に苦しんでいる。本研究では、概念に基づく説明において一般的に見過ごされている3つの要因を分析する。まず、プローブデータセットの選択は、生成される説明に大きな影響を与える。我々の分析は、異なるプローブデータセットが非常に異なる説明をもたらす可能性があることを明らかにし、説明がプローブデータセットの外では一般化できないことを示唆している。次に、プローブデータセットに含まれる概念は、説明すると主張するクラスよりも顕著でなく、学習しにくいことが多く、説明の正しさに疑問符がつくことがわかった。我々は、概念に基づく説明では、視覚的に顕著な概念のみを使用すべきであると主張する。また、既存手法では数百から数千の概念を用いるが、我々の研究では32概念以下という、より厳しい上限を設定し、それを超えると説明の実用性が低下することを明らかにしている。我々は、概念に基づく解釈可能性手法の将来の開発と分析について提案する。私たちの解析とユーザーインターフェースのコードは、㊦で見ることができます{https://github.com/princetonvisualai/OverlookedFactors}。

要約(オリジナル)

Concept-based interpretability methods aim to explain deep neural network model predictions using a predefined set of semantic concepts. These methods evaluate a trained model on a new, ‘probe’ dataset and correlate model predictions with the visual concepts labeled in that dataset. Despite their popularity, they suffer from limitations that are not well-understood and articulated by the literature. In this work, we analyze three commonly overlooked factors in concept-based explanations. First, the choice of the probe dataset has a profound impact on the generated explanations. Our analysis reveals that different probe datasets may lead to very different explanations, and suggests that the explanations are not generalizable outside the probe dataset. Second, we find that concepts in the probe dataset are often less salient and harder to learn than the classes they claim to explain, calling into question the correctness of the explanations. We argue that only visually salient concepts should be used in concept-based explanations. Finally, while existing methods use hundreds or even thousands of concepts, our human studies reveal a much stricter upper bound of 32 concepts or less, beyond which the explanations are much less practically useful. We make suggestions for future development and analysis of concept-based interpretability methods. Code for our analysis and user interface can be found at \url{https://github.com/princetonvisualai/OverlookedFactors}

arxiv情報

著者 Vikram V. Ramaswamy,Sunnie S. Y. Kim,Ruth Fong,Olga Russakovsky
発行日 2023-05-12 15:48:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク