Evaluating the Reliability of Self-Explanations in Large Language Models

要約

この論文では、大規模言語モデル (LLM) が以前の出力を説明するように求められたときに生成される説明の信頼性を調査します。
私たちは、2 つの異なる分類タスク (客観的および主観的) で 3 つの最先端の LLM (2B ~ 8B パラメータ) を使用して、抽出的と反事実的という 2 種類の自己説明を評価します。
私たちの調査結果は、これらの自己説明は人間の判断と相関する可能性があるものの、モデルの決定プロセスに完全かつ正確に従っていないことを明らかにしており、認識されている推論と実際のモデル推論との間にギャップがあることを示しています。
LLM に反事実の説明を促すことで、忠実で有益で検証しやすい結果が得られるため、このギャップを埋めることができることを示します。
これらの反事実は、プロンプトが特定のタスクに合わせて調整され、有効性がチェックされるという条件で、従来の説明可能性手法 (SHAP、LIME など) に代わる有望な代替手段を提供します。

要約(オリジナル)

This paper investigates the reliability of explanations generated by large language models (LLMs) when prompted to explain their previous output. We evaluate two kinds of such self-explanations – extractive and counterfactual – using three state-of-the-art LLMs (2B to 8B parameters) on two different classification tasks (objective and subjective). Our findings reveal, that, while these self-explanations can correlate with human judgement, they do not fully and accurately follow the model’s decision process, indicating a gap between perceived and actual model reasoning. We show that this gap can be bridged because prompting LLMs for counterfactual explanations can produce faithful, informative, and easy-to-verify results. These counterfactuals offer a promising alternative to traditional explainability methods (e.g. SHAP, LIME), provided that prompts are tailored to specific tasks and checked for validity.

arxiv情報

著者 Korbinian Randl,John Pavlopoulos,Aron Henriksson,Tony Lindgren
発行日 2024-07-19 17:41:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク