要約
このペーパーでは、以前の出力を説明するように促されたときに、大規模な言語モデル(LLMS)によって生成された説明の信頼性を調査します。
2つの異なる分類タスク(客観的および主観的)で3つの最先端のLLM(2Bから8Bパラメーター)を使用して、2種類のこのような自己紹介(抽出および反事実)を評価します。
私たちの調査結果は、これらの自己説明は人間の判断と相関する可能性があるが、モデルの決定プロセスに完全かつ正確に従うことはなく、知覚されたモデルの推論と実際のモデルの推論のギャップを示していることを明らかにしています。
反事実的な説明のためにLLMSを促すことで、忠実で有益で、検証しやすい結果を生み出すことができるため、このギャップを埋めることができることを示します。
これらの反事実は、プロンプトが特定のタスクに合わせて調整され、妥当性をチェックしていれば、従来の説明可能性方法(たとえば、Shap、Limeなど)に有望な代替手段を提供します。
要約(オリジナル)
This paper investigates the reliability of explanations generated by large language models (LLMs) when prompted to explain their previous output. We evaluate two kinds of such self-explanations – extractive and counterfactual – using three state-of-the-art LLMs (2B to 8B parameters) on two different classification tasks (objective and subjective). Our findings reveal, that, while these self-explanations can correlate with human judgement, they do not fully and accurately follow the model’s decision process, indicating a gap between perceived and actual model reasoning. We show that this gap can be bridged because prompting LLMs for counterfactual explanations can produce faithful, informative, and easy-to-verify results. These counterfactuals offer a promising alternative to traditional explainability methods (e.g. SHAP, LIME), provided that prompts are tailored to specific tasks and checked for validity.
arxiv情報
著者 | Korbinian Randl,John Pavlopoulos,Aron Henriksson,Tony Lindgren |
発行日 | 2025-01-31 11:16:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google