COMIX: Compositional Explanations using Prototypes

要約

機械表現を人間の理解に合わせることが、機械学習 (ML) モデルの解釈可能性を向上させる鍵となります。
新しい画像を分類するとき、人間は多くの場合、画像を概念に分解し、見慣れた画像内の対応する領域を示すことで、その決定を説明します。
現在の ML 説明手法は通常、意思決定プロセスを追跡してプロトタイプを参照するか、機能の重要性を強調するアトリビューション マップを生成するか、人間が解釈可能な概念に合わせて設計された中間ボトルネックを組み込むかのいずれかです。
COMIX と名付けられた提案手法は、学習した概念に基づいて画像を領域に分解し、各領域をトレーニング データセットの画像内の対応する領域に追跡することで画像を分類し、説明が実際の意思決定プロセスを完全に表現していることを保証します。
テスト画像をニューラル ネットワークの選択された内部表現に分析して、プロトタイプの部分 (プリミティブ) を導出し、それらをトレーニング データから導出された対応するプリミティブと照合します。
一連の定性的および定量的実験で、事後分析とは対照的に、私たちの方法が説明の忠実性を提供し、効率が他の本質的に解釈可能なアーキテクチャと競合することを理論的に証明および実証します。
特に、ImageNet データセットの C 挿入スコアが最先端のベースラインと比較して 48.82% 向上するなど、忠実度とスパース性のメトリクスが大幅に向上していることがわかります。

要約(オリジナル)

Aligning machine representations with human understanding is key to improving interpretability of machine learning (ML) models. When classifying a new image, humans often explain their decisions by decomposing the image into concepts and pointing to corresponding regions in familiar images. Current ML explanation techniques typically either trace decision-making processes to reference prototypes, generate attribution maps highlighting feature importance, or incorporate intermediate bottlenecks designed to align with human-interpretable concepts. The proposed method, named COMIX, classifies an image by decomposing it into regions based on learned concepts and tracing each region to corresponding ones in images from the training dataset, assuring that explanations fully represent the actual decision-making process. We dissect the test image into selected internal representations of a neural network to derive prototypical parts (primitives) and match them with the corresponding primitives derived from the training data. In a series of qualitative and quantitative experiments, we theoretically prove and demonstrate that our method, in contrast to post hoc analysis, provides fidelity of explanations and shows that the efficiency is competitive with other inherently interpretable architectures. Notably, it shows substantial improvements in fidelity and sparsity metrics, including 48.82% improvement in the C-insertion score on the ImageNet dataset over the best state-of-the-art baseline.

arxiv情報

著者 Sarath Sivaprasad,Dmitry Kangin,Plamen Angelov,Mario Fritz
発行日 2025-01-10 15:40:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク