要約
プロトタイプ学習手法は、ブラックボックスの深層学習モデルに代わる解釈可能な代替手段を提供します。
ProtoPNet などのアプローチは、テスト画像のどの部分がトレーニング画像からの既知のプロトタイプ部分に「似ている」かを学習し、予測力とケースベース推論の固有の解釈可能性を組み合わせます。
ただし、既存のアプローチには 2 つの主な欠点があります。 A) 統計的な信頼性がなく、決定論的な類似性スコアのみに依存しています。
B) プロトタイプは人間の入力なしでブラックボックス方式で学習されます。
この研究では、学習可能な平均と分散を備えた潜在空間の超球上のガウス分布を活用した新しいプロトタイプ表現である HyperPg を紹介します。
HyperPg プロトタイプは、潜在空間内のクラスターの広がりに適応し、尤度スコアを出力します。
新しいアーキテクチャである HyperPgNet は、HyperPg を活用して、人間の概念に合わせたプロトタイプをピクセルレベルの注釈から学習します。
したがって、各プロトタイプは、色、画像のテクスチャ、画像の主題の一部などの特定の概念を表します。
基礎モデルに基づいて構築されたコンセプト抽出パイプラインはピクセルレベルの注釈を提供し、人間によるラベル付けの労力を大幅に削減します。
CUB-200-2011 および Stanford Cars データセットの実験では、HyperPgNet がより少ないパラメーターとトレーニング ステップを使用しながら、他のプロトタイプ学習アーキテクチャよりも優れたパフォーマンスを発揮することが実証されました。
さらに、コンセプトに合わせた HyperPg プロトタイプは透過的に学習され、モデルの解釈可能性が向上します。
要約(オリジナル)
Prototype Learning methods provide an interpretable alternative to black-box deep learning models. Approaches such as ProtoPNet learn, which part of a test image ‘look like’ known prototypical parts from training images, combining predictive power with the inherent interpretability of case-based reasoning. However, existing approaches have two main drawbacks: A) They rely solely on deterministic similarity scores without statistical confidence. B) The prototypes are learned in a black-box manner without human input. This work introduces HyperPg, a new prototype representation leveraging Gaussian distributions on a hypersphere in latent space, with learnable mean and variance. HyperPg prototypes adapt to the spread of clusters in the latent space and output likelihood scores. The new architecture, HyperPgNet, leverages HyperPg to learn prototypes aligned with human concepts from pixel-level annotations. Consequently, each prototype represents a specific concept such as color, image texture, or part of the image subject. A concept extraction pipeline built on foundation models provides pixel-level annotations, significantly reducing human labeling effort. Experiments on CUB-200-2011 and Stanford Cars datasets demonstrate that HyperPgNet outperforms other prototype learning architectures while using fewer parameters and training steps. Additionally, the concept-aligned HyperPg prototypes are learned transparently, enhancing model interpretability.
arxiv情報
著者 | Maximilian Xiling Li,Korbinian Franz Rudolf,Nils Blank,Rudolf Lioutikov |
発行日 | 2024-10-11 15:50:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google