要約
コンセプト ボトルネック モデル (CBM) は、まず画像を人間が理解できる概念空間にマッピングし、次に分類のために概念を線形結合することによって、ディープ ニューラル ネットワークの「ブラック ボックス」問題に対処するために最近提案されました。
このようなモデルでは通常、まずタスクに関連する一連の概念を考え出し、次にこれらの概念にマップするために特徴抽出器の表現を調整する必要があります。
ただし、CLIP のような強力な基本的な特徴抽出ツールを使用したとしても、指定された概念が検出可能であるという保証はありません。
この研究では、メカニズムの解釈可能性における最近の進歩を活用し、下流に基づいて概念を事前に選択する代わりに、典型的なパラダイムを逆転させる、Discover-then-Name-CBM (DN-CBM) と呼ばれる新しい CBM アプローチを提案します。
分類タスクでは、スパース オートエンコーダーを使用して、最初にモデルによって学習された概念を発見し、次にそれらに名前を付けて、分類用の線形プローブをトレーニングします。
私たちの概念抽出戦略は、下流のタスクに依存せず、モデルにすでに知られている概念を使用するため、効率的です。
私たちは、複数のデータセットと CLIP アーキテクチャにわたって包括的な評価を実行し、私たちの方法が意味的に意味のある概念を生成し、それらに解釈しやすい適切な名前を割り当て、パフォーマンスが高く解釈可能な CBM を生成することを示します。
コードは https://github.com/neuroexplicit-saar/discover-then-name で入手できます。
要約(オリジナル)
Concept Bottleneck Models (CBMs) have recently been proposed to address the ‘black-box’ problem of deep neural networks, by first mapping images to a human-understandable concept space and then linearly combining concepts for classification. Such models typically require first coming up with a set of concepts relevant to the task and then aligning the representations of a feature extractor to map to these concepts. However, even with powerful foundational feature extractors like CLIP, there are no guarantees that the specified concepts are detectable. In this work, we leverage recent advances in mechanistic interpretability and propose a novel CBM approach — called Discover-then-Name-CBM (DN-CBM) — that inverts the typical paradigm: instead of pre-selecting concepts based on the downstream classification task, we use sparse autoencoders to first discover concepts learnt by the model, and then name them and train linear probes for classification. Our concept extraction strategy is efficient, since it is agnostic to the downstream task, and uses concepts already known to the model. We perform a comprehensive evaluation across multiple datasets and CLIP architectures and show that our method yields semantically meaningful concepts, assigns appropriate names to them that make them easy to interpret, and yields performant and interpretable CBMs. Code available at https://github.com/neuroexplicit-saar/discover-then-name.
arxiv情報
著者 | Sukrut Rao,Sweta Mahajan,Moritz Böhle,Bernt Schiele |
発行日 | 2024-08-12 14:50:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google