要約
概念ベースの説明は、複雑なモデルの計算を人間が理解できる概念にマッピングすることによって機能します。
このような説明を評価することは、考えられる概念の誘導空間の質だけでなく、選択された概念がどの程度効果的にユーザーに伝わるかということも含まれるため、非常に困難です。
既存の評価指標は、前者のみに焦点を当て、後者を無視することがよくあります。
我々は、自動化されたシミュレーション可能性、つまり、提供された説明に基づいて説明されたモデルの出力を予測するシミュレータの能力を介して概念の説明を測定するための評価フレームワークを導入します。
このアプローチでは、エンドツーエンドの評価において概念空間とその解釈の両方が考慮されます。
シミュレーション可能性に関する人体研究は、特に広範で包括的な経験的評価 (これがこの研究の主題です) の規模で実施するのが難しいことで知られています。
私たちは、大規模言語モデル (LLM) をシミュレータとして使用して評価を近似し、そのような近似を信頼できるものにするさまざまな分析を報告することを提案します。
私たちの方法により、さまざまなモデルやデータセットにわたってスケーラブルで一貫した評価が可能になります。
我々は、このフレームワークを使用した包括的な経験的評価を報告し、LLM が説明方法の一貫したランキングを提供することを示します。
コードは https://github.com/AnonymousConSim/ConSim で入手できます
要約(オリジナル)
Concept-based explanations work by mapping complex model computations to human-understandable concepts. Evaluating such explanations is very difficult, as it includes not only the quality of the induced space of possible concepts but also how effectively the chosen concepts are communicated to users. Existing evaluation metrics often focus solely on the former, neglecting the latter. We introduce an evaluation framework for measuring concept explanations via automated simulatability: a simulator’s ability to predict the explained model’s outputs based on the provided explanations. This approach accounts for both the concept space and its interpretation in an end-to-end evaluation. Human studies for simulatability are notoriously difficult to enact, particularly at the scale of a wide, comprehensive empirical evaluation (which is the subject of this work). We propose using large language models (LLMs) as simulators to approximate the evaluation and report various analyses to make such approximations reliable. Our method allows for scalable and consistent evaluation across various models and datasets. We report a comprehensive empirical evaluation using this framework and show that LLMs provide consistent rankings of explanation methods. Code available at https://github.com/AnonymousConSim/ConSim
arxiv情報
著者 | Antonin Poché,Alon Jacovi,Agustin Martin Picard,Victor Boutin,Fanny Jourdan |
発行日 | 2025-01-10 10:53:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google