Large Language Models As Faithful Explainers

要約

最近、大規模言語モデル (LLM) は、豊富な内部知識と推論能力を活用して、複雑なタスクに対処できるようになりました。
その結果、この複雑さが、LLM の複雑な意思決定プロセスを説明するための従来の入力中心の説明アルゴリズムの妨げとなります。
このように、自然言語形式での単一のフィードフォワード推論を通じて予測を自己説明する最近の進歩が現れています。
ただし、自然言語による説明は、LLM の意思決定動作を正確に反映していない可能性があるため、忠実性に欠けていると批判されることがよくあります。
この研究では、LLM の自然言語形式で提供される説明の忠実性を向上させるために、生成的説明フレームワーク xLLM を導入します。
具体的には、自然言語説明の忠実度を定量化し、忠実度スコアを最大化することを目的として、xLLM の反復最適化プロセスによって忠実度を高める評価器を提案します。
3 つの NLU データセットに対して行われた実験では、xLLM が生成された説明の忠実性を大幅に向上させ、LLM の動作と一致することが実証されました。

要約(オリジナル)

Large Language Models (LLMs) have recently become proficient in addressing complex tasks by utilizing their rich internal knowledge and reasoning ability. Consequently, this complexity hinders traditional input-focused explanation algorithms for explaining the complex decision-making processes of LLMs. Recent advancements have thus emerged for self-explaining their predictions through a single feed-forward inference in a natural language format. However, natural language explanations are often criticized for lack of faithfulness since these explanations may not accurately reflect the decision-making behaviors of the LLMs. In this work, we introduce a generative explanation framework, xLLM, to improve the faithfulness of the explanations provided in natural language formats for LLMs. Specifically, we propose an evaluator to quantify the faithfulness of natural language explanation and enhance the faithfulness by an iterative optimization process of xLLM, with the goal of maximizing the faithfulness scores. Experiments conducted on three NLU datasets demonstrate that xLLM can significantly improve the faithfulness of generated explanations, which are in alignment with the behaviors of LLMs.

arxiv情報

著者 Yu-Neng Chuang,Guanchu Wang,Chia-Yuan Chang,Ruixiang Tang,Fan Yang,Mengnan Du,Xuanting Cai,Xia Hu
発行日 2024-02-07 09:09:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク