Walking the Web of Concept-Class Relationships in Incrementally Trained Interpretable Models

要約

概念ベースの方法は、標準的な監視設定で解釈可能なニューラルネットワークを開発するための有望な方向として浮上しています。
ただし、インクリメンタル設定でそれらを研究するほとんどの作品は、すべての経験にわたって静的概念を想定しているか、各エクスペリエンスが明確な概念に依存していると仮定します。
この作業では、新しい概念を導入することに加えて、新しいクラスが古い概念に依存する可能性のある、より現実的でダイナミックな設定でコンセプトベースのモデルを研究します。
私たちは、概念とクラスが複雑な関係の網を形成していることを示しています。
新しいメトリックを導入して、既存の概念ベースのモデルは、壊滅的な忘却を防ぐための方法を使用して訓練された場合でもこれらの関係を維持できないことを示します。
これらの問題に対処するために、マルチモーダルの概念を使用して、エクスペリエンス全体でトレーニング可能なパラメーターの数を増やすことなく分類を実行する新しい方法を提案します。
マルチモーダルの概念は、自然言語で提供される概念に合わせて、設計によって解釈可能になります。
広範な実験を通じて、私たちのアプローチは、他の概念ベースのモデルと比較して最先端の分類パフォーマンスを取得し、場合によっては分類パフォーマンスを2 $ \ Times $を達成することを示します。
また、モデルの概念に関する介入を実行する能力を研究し、入力画像の視覚的概念をローカライズし、事後解釈を提供できることを示します。

要約(オリジナル)

Concept-based methods have emerged as a promising direction to develop interpretable neural networks in standard supervised settings. However, most works that study them in incremental settings assume either a static concept set across all experiences or assume that each experience relies on a distinct set of concepts. In this work, we study concept-based models in a more realistic, dynamic setting where new classes may rely on older concepts in addition to introducing new concepts themselves. We show that concepts and classes form a complex web of relationships, which is susceptible to degradation and needs to be preserved and augmented across experiences. We introduce new metrics to show that existing concept-based models cannot preserve these relationships even when trained using methods to prevent catastrophic forgetting, since they cannot handle forgetting at concept, class, and concept-class relationship levels simultaneously. To address these issues, we propose a novel method – MuCIL – that uses multimodal concepts to perform classification without increasing the number of trainable parameters across experiences. The multimodal concepts are aligned to concepts provided in natural language, making them interpretable by design. Through extensive experimentation, we show that our approach obtains state-of-the-art classification performance compared to other concept-based models, achieving over 2$\times$ the classification performance in some cases. We also study the ability of our model to perform interventions on concepts, and show that it can localize visual concepts in input images, providing post-hoc interpretations.

arxiv情報

著者 Susmit Agrawal,Deepika Vemuri,Sri Siddarth Chakaravarthy P,Vineeth N. Balasubramanian
発行日 2025-02-27 18:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク