Dissociation of Faithful and Unfaithful Reasoning in LLMs

要約

大規模言語モデル(LLM)は、答えを生成する前にChain of Thought推論テキストを生成することで、しばしば下流タスクでの性能が向上する。我々は、LLMがどのようにChain of Thoughtのエラーから回復するかを調査する。エラー回復動作の分析を通じて、Chain of Thoughtにおける不誠実さの証拠を発見する。LLMの回復行動を変化させる要因を特定する:LLMは明らかな誤りからより頻繁に回復し、正解を示すより多くの証拠を提供する文脈で回復する。決定的なことは、これらの要因は忠実な回復と不誠実な回復に異なる影響を与えるということである。この結果は、忠実なエラー回復と不誠実なエラー回復には、それぞれ異なるメカニズムがあることを示している。これらのメカニズムを選択的に標的とすることで、不誠実な推論の割合を減少させ、モデルの解釈可能性を向上させることができるかもしれない。

要約(オリジナル)

Large language models (LLMs) often improve their performance in downstream tasks when they generate Chain of Thought reasoning text before producing an answer. We investigate how LLMs recover from errors in Chain of Thought. Through analysis of error recovery behaviors, we find evidence for unfaithfulness in Chain of Thought, which occurs when models arrive at the correct answer despite invalid reasoning text. We identify factors that shift LLM recovery behavior: LLMs recover more frequently from obvious errors and in contexts that provide more evidence for the correct answer. Critically, these factors have divergent effects on faithful and unfaithful recoveries. Our results indicate that there are distinct mechanisms driving faithful and unfaithful error recoveries. Selective targeting of these mechanisms may be able to drive down the rate of unfaithful reasoning and improve model interpretability.

arxiv情報

著者 Evelyn Yee,Alice Li,Chenyu Tang,Yeon Ho Jung,Ramamohan Paturi,Leon Bergen
発行日 2024-09-02 22:40:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク