要約
この論文では、マルチモーダル基礎モデルから設計された、高速で説明可能な画像分類を実行する説明可能なアルゴリズムを紹介します。
CLIP ベースのコンセプト ボトルネック モデル (CBM) からインスピレーションを得た私たちの手法は、各ニューロンが特定の単語にリンクされている潜在空間を作成します。
この潜在空間が単純な分布でモデル化できることを観察し、混合ガウス (MoG) 形式主義を使用してこの潜在空間の解釈可能性を高めます。
次に、概念からラベルを推測するために統計値のみを使用する分類器である CLIP-QDA を紹介します。
さらに、この形式主義により、ローカルとグローバルの両方の説明が可能になります。
これらの説明は、私たちのアーキテクチャの内部設計から来ており、私たちの仕事は、不透明な基礎モデルのパフォーマンスと透明なモデルの解釈可能性を組み合わせた、新しいグレーボックス モデルのファミリーの一部です。
私たちの経験的調査結果は、MoG の仮定が当てはまる場合、CLIP-QDA は最先端の手法 CBM と同様の精度を達成することを示しています。
私たちの説明は、既存の XAI メソッドと競合しながら、計算が高速です。
要約(オリジナル)
In this paper, we introduce an explainable algorithm designed from a multi-modal foundation model, that performs fast and explainable image classification. Drawing inspiration from CLIP-based Concept Bottleneck Models (CBMs), our method creates a latent space where each neuron is linked to a specific word. Observing that this latent space can be modeled with simple distributions, we use a Mixture of Gaussians (MoG) formalism to enhance the interpretability of this latent space. Then, we introduce CLIP-QDA, a classifier that only uses statistical values to infer labels from the concepts. In addition, this formalism allows for both local and global explanations. These explanations come from the inner design of our architecture, our work is part of a new family of greybox models, combining performances of opaque foundation models and the interpretability of transparent models. Our empirical findings show that in instances where the MoG assumption holds, CLIP-QDA achieves similar accuracy with state-of-the-art methods CBMs. Our explanations compete with existing XAI methods while being faster to compute.
arxiv情報
著者 | Rémi Kazmierczak,Eloïse Berthier,Goran Frehse,Gianni Franchi |
発行日 | 2024-05-31 15:07:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google