要約
コンセプトボトルネックモデル(CBM)は、深い学習モデルアーキテクチャ内のボトルネックの人間レベルの「概念」を予測することにより、モデルの解釈性を向上させることを目的としています。
ただし、ターゲットを予測する際に予測された概念がどのように使用されるかは、まだブラックボックスのままであるか、予測パフォーマンスのコストで解釈可能性を維持するために単純化されています。
私たちは、速い解釈可能な貪欲な総計(図)を使用して、バイナリ蒸留(BD)を取得することを提案します。
Figs-BDと呼ばれるこの新しい方法は、CBM教師の競争力のある予測パフォーマンスを維持しながら、CBMのバイナリの継続的な概念部分を解釈可能なツリーベースのモデルに蒸留します。
Figs-BDは、下流タスクで使用され、CBMの予測を解釈可能なバイナリ概念相互作用の属性に説明および分解し、適応テスト時間介入をガイドできます。
4つのデータセットで、適応テストタイム介入が、限られた概念介入のみを可能にする現実的な人間のループ設定のパフォーマンスを大幅に改善する重要な概念を特定していることを実証します。
要約(オリジナル)
Concept bottleneck models (CBM) aim to improve model interpretability by predicting human level ‘concepts’ in a bottleneck within a deep learning model architecture. However, how the predicted concepts are used in predicting the target still either remains black-box or is simplified to maintain interpretability at the cost of prediction performance. We propose to use Fast Interpretable Greedy Sum-Trees (FIGS) to obtain Binary Distillation (BD). This new method, called FIGS-BD, distills a binary-augmented concept-to-target portion of the CBM into an interpretable tree-based model, while maintaining the competitive prediction performance of the CBM teacher. FIGS-BD can be used in downstream tasks to explain and decompose CBM predictions into interpretable binary-concept-interaction attributions and guide adaptive test-time intervention. Across 4 datasets, we demonstrate that our adaptive test-time intervention identifies key concepts that significantly improve performance for realistic human-in-the-loop settings that only allow for limited concept interventions.
arxiv情報
著者 | Matthew Shen,Aliyah Hsu,Abhineet Agarwal,Bin Yu |
発行日 | 2025-04-14 16:39:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google