Climbing the Ladder of Interpretability with Counterfactual Concept Bottleneck Models

要約

現在のディープラーニングモデルは、与えられた分類タスクを解くためにクラスラベルを予測すること(「What」)、タスクの予測を説明すること(「Why」)、異なる予測をもたらす可能性のある代替シナリオを想像すること(「What if」)という3つの基本的な問いに同時に取り組むようには設計されていない。これらの質問に答えられないことは、信頼性の高いAIエージェントの配備、人間の信頼の調整、人間と機械の相互作用の深化において決定的なギャップを意味する。このギャップを埋めるために、我々はCounterFactual Concept Bottleneck Models (CF-CBMs)を導入する。CF-CBMsは、ポストホック検索を実行する必要なく、上記のクエリに一度に効率的に対処するように設計されたモデルのクラスである。我々の結果は、CF-CBMが正確な予測(What?)、タスク予測に対する単純な説明(Why?)、解釈可能な反事実(What if?)を生成することを示している。CF-CBMはまた、最も可能性の高い反事実をサンプリングまたは推定することができる:(i)タスクに対する概念介入の効果を説明する、(ii)望ましいクラスラベルを取得する方法をユーザに示す、(iii)「タスク駆動型」介入による概念介入を提案する。

要約(オリジナル)

Current deep learning models are not designed to simultaneously address three fundamental questions: predict class labels to solve a given classification task (the ‘What?’), explain task predictions (the ‘Why?’), and imagine alternative scenarios that could result in different predictions (the ‘What if?’). The inability to answer these questions represents a crucial gap in deploying reliable AI agents, calibrating human trust, and deepening human-machine interaction. To bridge this gap, we introduce CounterFactual Concept Bottleneck Models (CF-CBMs), a class of models designed to efficiently address the above queries all at once without the need to run post-hoc searches. Our results show that CF-CBMs produce: accurate predictions (the ‘What?’), simple explanations for task predictions (the ‘Why?’), and interpretable counterfactuals (the ‘What if?’). CF-CBMs can also sample or estimate the most probable counterfactual to: (i) explain the effect of concept interventions on tasks, (ii) show users how to get a desired class label, and (iii) propose concept interventions via ‘task-driven’ interventions.

arxiv情報

著者 Gabriele Dominici,Pietro Barbiero,Francesco Giannini,Martin Gjoreski,Giuseppe Marra,Marc Langheinrich
発行日 2024-02-02 13:42:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク