Beyond Concept Bottleneck Models: How to Make Black Boxes Intervenable?

要約

最近、解釈可能な機械学習により、生の特徴から高レベルの概念を段階的に予測し、予測された概念からターゲット変数を段階的に予測する概念ボトルネック モデル (CBM) が再調査されています。
このモデル クラスの大きな利点は、ユーザーが予測された概念値に介入して、モデルの下流の出力に影響を与えることができることです。
この研究では、注釈付きの検証セットが与えられた場合、設計によって解釈できない、すでに訓練されたニューラル ネットワークに対してそのような概念ベースの介入を実行する方法を紹介します。
さらに、モデルの介入可能性を概念ベースの介入の有効性の尺度として形式化し、この定義を利用してブラックボックス モデルを微調整します。
経験的に、合成表形式と自然画像のベンチマークに対するブラックボックス分類器の介入可能性を調査します。
私たちは、微調整によって介入の有効性が向上し、多くの場合、より適切に調整された予測が得られることを実証します。
提案された技術の実用性を示すために、提案された技術を胸部深部 X 線分類器に適用し、微調整されたブラック ボックスが CBM と同じくらい介入可能で、より高いパフォーマンスを発揮できることを示します。

要約(オリジナル)

Recently, interpretable machine learning has re-explored concept bottleneck models (CBM), comprising step-by-step prediction of the high-level concepts from the raw features and the target variable from the predicted concepts. A compelling advantage of this model class is the user’s ability to intervene on the predicted concept values, affecting the model’s downstream output. In this work, we introduce a method to perform such concept-based interventions on already-trained neural networks, which are not interpretable by design, given an annotated validation set. Furthermore, we formalise the model’s intervenability as a measure of the effectiveness of concept-based interventions and leverage this definition to fine-tune black-box models. Empirically, we explore the intervenability of black-box classifiers on synthetic tabular and natural image benchmarks. We demonstrate that fine-tuning improves intervention effectiveness and often yields better-calibrated predictions. To showcase the practical utility of the proposed techniques, we apply them to deep chest X-ray classifiers and show that fine-tuned black boxes can be as intervenable and more performant than CBMs.

arxiv情報

著者 Ričards Marcinkevičs,Sonia Laguna,Moritz Vandenhirtz,Julia E. Vogt
発行日 2024-01-24 16:02:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク