Inference to the Best Explanation in Large Language Models

要約

大規模言語モデル (LLM) は現実世界のアプリケーションで成功を収めていますが、その基礎となる説明プロセスはまだ十分に理解されていません。
この論文は、LLM の説明の解釈と評価を前進させるために、最良の説明への推論 (IBE) に関する哲学的説明に触発されたフレームワークである IBE-Eval を提案します。
IBE-Eval は、一貫性、倹約性、一貫性、不確実性などの明示的な論理的および言語的特徴の組み合わせを通じて、自然言語説明の妥当性を推定します。
因果関係質問応答 (CQA) に関して広範な実験が行われ、\textit{IBE-Eval} は、LLM (つまり、GPT 3.5 と Llama 2) によって生成された競合する説明の中から最ももっともらしい因果関係の説明を選択する役割を果たします。
実験では、IBE-Eval が最高 77\% の精度 (ランダムを上回る $\およそ 27\%$) で最良の説明を首尾よく特定でき、GPT 3.5-as-a-Judge ベースライン ($\およそ+17) を改善できることが明らかになりました。
\%$) と同時に、本質的により効率的で解釈しやすくなります。
追加の分析では、モデル固有の差異にもかかわらず、LLM によって生成された説明は IBE 基準に準拠する傾向があり、IBE-Eval が人間の判断と有意に相関しており、自動説明検証ツールの将来の開発の機会が開かれていることが示唆されています。

要約(オリジナル)

While Large Language Models (LLMs) have found success in real-world applications, their underlying explanatory process is still poorly understood. This paper proposes IBE-Eval, a framework inspired by philosophical accounts on Inference to the Best Explanation (IBE) to advance the interpretation and evaluation of LLMs’ explanations. IBE-Eval estimates the plausibility of natural language explanations through a combination of explicit logical and linguistic features including: consistency, parsimony, coherence, and uncertainty. Extensive experiments are conducted on Causal Question Answering (CQA), where \textit{IBE-Eval} is tasked to select the most plausible causal explanation amongst competing ones generated by LLMs (i.e., GPT 3.5 and Llama 2). The experiments reveal that IBE-Eval can successfully identify the best explanation with up to 77\% accuracy ($\approx 27\%$ above random), improving upon a GPT 3.5-as-a-Judge baseline ($\approx+17\%$) while being intrinsically more efficient and interpretable. Additional analyses suggest that, despite model-specific variances, LLM-generated explanations tend to conform to IBE criteria and that IBE-Eval is significantly correlated with human judgment, opening up opportunities for future development of automated explanation verification tools.

arxiv情報

著者 Dhairya Dalal,Marco Valentino,André Freitas,Paul Buitelaar
発行日 2024-02-16 15:41:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク