Estimation of Concept Explanations Should be Uncertainty Aware

要約

モデルの説明は、予測モデルの解釈とデバッグに役立ちます。
私たちは概念説明と呼ばれる特定の種類の研究を行っており、その目標は人間が理解できる概念を使用してモデルを解釈することです。
わかりやすい解釈で人気がありますが、概念の説明はうるさいことで知られています。
私たちは、このようなノイズの原因となる推定パイプライン内のさまざまな不確実性の原因を特定することから作業を開始します。
次に、これらの問題に対処するために、不確実性を考慮したベイズ推定手法を提案します。これにより、説明の質がすぐに向上します。
私たちは、理論的分析と経験的評価によって、私たちの方法によって計算された説明がトレーニング時の選択に対して堅牢であり、ラベル効率も高いことを実証します。
さらに、私たちの方法は、実際のデータセットと既製のモデルを使用した評価で、数千のバンクの中から関連する概念を復元できることが証明され、そのスケーラビリティが実証されました。
私たちは、不確実性を考慮した概念説明の品質が向上したため、より信頼性の高いモデル解釈の有力な候補となると考えています。
コードは https://github.com/vps-anonconfs/uace でリリースされます。

要約(オリジナル)

Model explanations can be valuable for interpreting and debugging predictive models. We study a specific kind called Concept Explanations, where the goal is to interpret a model using human-understandable concepts. Although popular for their easy interpretation, concept explanations are known to be noisy. We begin our work by identifying various sources of uncertainty in the estimation pipeline that lead to such noise. We then propose an uncertainty-aware Bayesian estimation method to address these issues, which readily improved the quality of explanations. We demonstrate with theoretical analysis and empirical evaluation that explanations computed by our method are robust to train-time choices while also being label-efficient. Further, our method proved capable of recovering relevant concepts amongst a bank of thousands, in an evaluation with real-datasets and off-the-shelf models, demonstrating its scalability. We believe the improved quality of uncertainty-aware concept explanations make them a strong candidate for more reliable model interpretation. We release our code at https://github.com/vps-anonconfs/uace.

arxiv情報

著者 Vihari Piratla,Juyeon Heo,Katherine M. Collins,Sukriti Singh,Adrian Weller
発行日 2024-04-05 13:42:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク