要約
概念に基づく説明は、複雑なモデル計算を人間が理解できる概念にマッピングすることで機能する。このような説明を評価することは非常に難しい。なぜなら、可能な概念の誘導空間の質だけでなく、選択された概念がいかに効果的にユーザーに伝達されるかも含まれるからである。既存の評価指標は、しばしば前者のみに焦点を当て、後者を軽視している。我々は、自動化されたシミュレータビリティ(提供された説明に基づいて、説明されたモデルの出力を予測するシミュレータの能力)を介して概念説明を測定するための評価フレームワークを紹介する。このアプローチは、エンドツーエンドの評価において、概念空間とその解釈の両方を考慮する。シミュレータビリティに関する人間による研究は、特に(この研究の主題である)広範で包括的な経験的評価の規模では、実施するのが難しいことで知られている。我々は、評価を近似するシミュレータとして大規模言語モデル(LLM)を使用することを提案し、そのような近似の信頼性を高めるための様々な分析を報告する。我々の手法により、様々なモデルやデータセットに対してスケーラブルで一貫性のある評価が可能となる。このフレームワークを用いた包括的な実証評価を報告し、LLMが説明手法の一貫したランキングを提供することを示す。コードはhttps://github.com/AnonymousConSim/ConSim。
要約(オリジナル)
Concept-based explanations work by mapping complex model computations to human-understandable concepts. Evaluating such explanations is very difficult, as it includes not only the quality of the induced space of possible concepts but also how effectively the chosen concepts are communicated to users. Existing evaluation metrics often focus solely on the former, neglecting the latter. We introduce an evaluation framework for measuring concept explanations via automated simulatability: a simulator’s ability to predict the explained model’s outputs based on the provided explanations. This approach accounts for both the concept space and its interpretation in an end-to-end evaluation. Human studies for simulatability are notoriously difficult to enact, particularly at the scale of a wide, comprehensive empirical evaluation (which is the subject of this work). We propose using large language models (LLMs) as simulators to approximate the evaluation and report various analyses to make such approximations reliable. Our method allows for scalable and consistent evaluation across various models and datasets. We report a comprehensive empirical evaluation using this framework and show that LLMs provide consistent rankings of explanation methods. Code available at https://github.com/AnonymousConSim/ConSim.
arxiv情報
著者 | Antonin Poché,Alon Jacovi,Agustin Martin Picard,Victor Boutin,Fanny Jourdan |
発行日 | 2025-02-03 09:13:17+00:00 |
arxivサイト | arxiv_id(pdf) |