Reasoning-Grounded Natural Language Explanations for Language Models

要約

推論プロセスで説明を接地することにより、忠実な自然言語の説明を得るための大規模な言語モデルの説明手法を提案します。
一連のトークンに変換されると、推論プロセスの出力はモデルコンテキストの一部になり、モデルが最終回答または説明のいずれかを生成するため、後で自然言語に解読できます。
説明の忠実さを改善するために、説明が回答に依存せず、逆に依存することなく、推論シーケンスから答えと説明が直接推測される共同予測と説明のアプローチを使用することを提案します。
いくつかの問題ドメインで回答と説明の間の高い整合を達成することにより、提案された手法の妥当性を実証し、言語モデルが多くの場合、推論シーケンスから最終的な回答または説明に部分的な決定を単純にコピーすることを観察します。
さらに、推論の提案された使用は、回答の品質を改善できることを示しています。

要約(オリジナル)

We propose a large language model explainability technique for obtaining faithful natural language explanations by grounding the explanations in a reasoning process. When converted to a sequence of tokens, the outputs of the reasoning process can become part of the model context and later be decoded to natural language as the model produces either the final answer or the explanation. To improve the faithfulness of the explanations, we propose to use a joint predict-explain approach, in which the answers and explanations are inferred directly from the reasoning sequence, without the explanations being dependent on the answers and vice versa. We demonstrate the plausibility of the proposed technique by achieving a high alignment between answers and explanations in several problem domains, observing that language models often simply copy the partial decisions from the reasoning sequence into the final answers or explanations. Furthermore, we show that the proposed use of reasoning can also improve the quality of the answers.

arxiv情報

著者 Vojtech Cahlik,Rodrigo Alves,Pavel Kordik
発行日 2025-03-14 10:00:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク