Learning to Intervene on Concept Bottlenecks

要約

従来の深層学習モデルには解釈可能性が欠けていることがよくありますが、コンセプト ボトルネック モデル (CBM) は、その概念表現を通じて固有の説明を提供します。
具体的には、ユーザーが概念の値を更新してモデルの予測出力を修正することにより、これらの概念に対して介入的な対話を実行できるようになります。
ただし、伝統的に、これらの介入はモデルに一度だけ適用され、その後は破棄されます。
これを修正するために、CBM の拡張であるコンセプト ボトルネック メモリ モデル (CB2M) を紹介します。
具体的には、CB2Mは、間違いを検出し、以前の介入を再適用することを学習できる二重記憶を介して、適切な新しい状況への介入を一般化することを学習します。
このようにして、CB2M は、最初に得られたいくつかの介入からモデルのパフォーマンスを自動的に向上させることを学習します。
事前に人間による介入が利用できない場合、CB2M は CBM ボトルネックの潜在的な間違いを検出し、対象を絞った介入を要求できます。
分布の変化や交絡したトレーニング データの処理などの困難なシナリオに関する実験的評価では、CB2M が目に見えないデータへの介入をうまく一般化でき、誤って推論された概念を実際に特定できることを示しました。
全体として、我々の結果は、CB2M が、ユーザーのインタラクションをガイドし、必要な介入を少なくするなど、CBM に関するインタラクティブなフィードバックを提供するための優れたツールであることを示しています。

要約(オリジナル)

While traditional deep learning models often lack interpretability, concept bottleneck models (CBMs) provide inherent explanations via their concept representations. Specifically, they allow users to perform interventional interactions on these concepts by updating the concept values and thus correcting the predictive output of the model. Traditionally, however, these interventions are applied to the model only once and discarded afterward. To rectify this, we present concept bottleneck memory models (CB2M), an extension to CBMs. Specifically, a CB2M learns to generalize interventions to appropriate novel situations via a two-fold memory with which it can learn to detect mistakes and to reapply previous interventions. In this way, a CB2M learns to automatically improve model performance from a few initially obtained interventions. If no prior human interventions are available, a CB2M can detect potential mistakes of the CBM bottleneck and request targeted interventions. In our experimental evaluations on challenging scenarios like handling distribution shifts and confounded training data, we illustrate that CB2M are able to successfully generalize interventions to unseen data and can indeed identify wrongly inferred concepts. Overall, our results show that CB2M is a great tool for users to provide interactive feedback on CBMs, e.g., by guiding a user’s interaction and requiring fewer interventions.

arxiv情報

著者 David Steinmann,Wolfgang Stammer,Felix Friedrich,Kristian Kersting
発行日 2023-08-25 15:54:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク