要約
コンセプト ボトルネック モデル (CBM) は、一連の高レベルの概念を使用して予測を構築および説明することで、ニューラル アーキテクチャの不透明性に取り組みます。
これらのモデルの特別な特性は、概念の介入が可能であり、ユーザーは誤って予測された概念を修正して、モデルのパフォーマンスを向上させることができます。
しかし、最近の研究では、介入の有効性は、概念がモデルのアーキテクチャとトレーニングのハイパーパラメータに介入される順序に大きく依存する可能性があることが示されています。
私たちは、これは、モデルが概念介入を適切に受け入れるためのトレーニング時のインセンティブが CBM に欠如していることに根ざしていると主張します。
これに対処するために、我々は、テスト時の介入に対するモデルの受容性を向上させる新しい CBM ベースのアーキテクチャおよびトレーニング パラダイムである、介入対応概念埋め込みモデル (IntCEM) を提案します。
私たちのモデルは、トレーニング時に意味のある介入の軌跡をサンプリングできるところから、エンドツーエンドの方法で概念介入ポリシーを学習します。
これにより、IntCEM は、テスト時に導入されたときにコンセプト介入を効果的に選択して受け取ることができます。
私たちの実験では、IntCEM がテスト時の概念介入を提供された場合、最先端の概念解釈可能なモデルよりも大幅に優れたパフォーマンスを示し、私たちのアプローチの有効性が実証されました。
要約(オリジナル)
Concept Bottleneck Models (CBMs) tackle the opacity of neural architectures by constructing and explaining their predictions using a set of high-level concepts. A special property of these models is that they permit concept interventions, wherein users can correct mispredicted concepts and thus improve the model’s performance. Recent work, however, has shown that intervention efficacy can be highly dependent on the order in which concepts are intervened on and on the model’s architecture and training hyperparameters. We argue that this is rooted in a CBM’s lack of train-time incentives for the model to be appropriately receptive to concept interventions. To address this, we propose Intervention-aware Concept Embedding models (IntCEMs), a novel CBM-based architecture and training paradigm that improves a model’s receptiveness to test-time interventions. Our model learns a concept intervention policy in an end-to-end fashion from where it can sample meaningful intervention trajectories at train-time. This conditions IntCEMs to effectively select and receive concept interventions when deployed at test-time. Our experiments show that IntCEMs significantly outperform state-of-the-art concept-interpretable models when provided with test-time concept interventions, demonstrating the effectiveness of our approach.
arxiv情報
著者 | Mateo Espinosa Zarlenga,Katherine M. Collins,Krishnamurthy Dvijotham,Adrian Weller,Zohreh Shams,Mateja Jamnik |
発行日 | 2023-10-25 15:38:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google