Labeling Neural Representations with Inverse Recognition

要約

ディープ ニューラル ネットワーク (DNN) は、複雑な階層データ表現を学習する際に優れた機能を発揮しますが、これらの表現の性質はほとんど知られていないままです。
ネットワーク分析などの既存のグローバルな説明可能性手法は、セグメンテーション マスクへの依存、統計的有意性テストの欠如、および高い計算要求などの制限に直面しています。
我々は、逆認識 (INVERT) を提案します。これは、学習された表現を人間が理解できる概念と区別する能力を活用して結び付けるためのスケーラブルなアプローチです。
以前の研究とは対照的に、INVERT は多様なタイプのニューロンを処理でき、計算の複雑さが少なく、セグメンテーション マスクの可用性に依存しません。
さらに、INVERT は、表現とそれに対応する説明の間の整合性を評価し、統計的有意性の尺度を提供する解釈可能なメトリクスを提供します。
擬似相関の影響を受ける表現の特定やモデル内の意思決定の階層構造の解釈など、さまざまなシナリオにおける INVERT の適用可能性を実証します。

要約(オリジナル)

Deep Neural Networks (DNNs) demonstrate remarkable capabilities in learning complex hierarchical data representations, but the nature of these representations remains largely unknown. Existing global explainability methods, such as Network Dissection, face limitations such as reliance on segmentation masks, lack of statistical significance testing, and high computational demands. We propose Inverse Recognition (INVERT), a scalable approach for connecting learned representations with human-understandable concepts by leveraging their capacity to discriminate between these concepts. In contrast to prior work, INVERT is capable of handling diverse types of neurons, exhibits less computational complexity, and does not rely on the availability of segmentation masks. Moreover, INVERT provides an interpretable metric assessing the alignment between the representation and its corresponding explanation and delivering a measure of statistical significance. We demonstrate the applicability of INVERT in various scenarios, including the identification of representations affected by spurious correlations, and the interpretation of the hierarchical structure of decision-making within the models.

arxiv情報

著者 Kirill Bykov,Laura Kopf,Shinichi Nakajima,Marius Kloft,Marina M. -C. Höhne
発行日 2024-01-18 15:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク