要約
思考の連鎖(CoT)プロンプトは、様々な推論タスクにおいて様々なパフォーマンスを示す。これまでの研究では、CoTの評価を試みているが、CoTに影響を与えるパターンの詳細な分析には至っていない。本論文では、CoTの性能を有効性と忠実性の観点から研究する。前者については、問題の難易度、情報利得、情報フローなど、パフォーマンス向上におけるCoTの有効性に影響を与える主要因を特定する。後者については、質問、CoT、解答の間の情報の相互作用の共同分析を行うことで、不誠実なCoT問題を解釈する。その結果、LLMが解答を予測する場合、質問からCoTに欠落している情報を正しく想起することができ、問題につながることが示された。最後に、この問題を軽減する新しいアルゴリズムを提案する。このアルゴリズムでは、CoT生成を強化するために質問から余分な情報を呼び出し、その情報利得に基づいてCoTを評価する。広範な実験により、我々のアプローチがCoTの忠実性と有効性の両方を向上させることを実証する。
要約(オリジナル)
Chain-of-thought (CoT) prompting demonstrates varying performance under different reasoning tasks. Previous work attempts to evaluate it but falls short in providing an in-depth analysis of patterns that influence the CoT. In this paper, we study the CoT performance from the perspective of effectiveness and faithfulness. For the former, we identify key factors that influence CoT effectiveness on performance improvement, including problem difficulty, information gain, and information flow. For the latter, we interpret the unfaithful CoT issue by conducting a joint analysis of the information interaction among the question, CoT, and answer. The result demonstrates that, when the LLM predicts answers, it can recall correct information missing in the CoT from the question, leading to the problem. Finally, we propose a novel algorithm to mitigate this issue, in which we recall extra information from the question to enhance the CoT generation and evaluate CoTs based on their information gain. Extensive experiments demonstrate that our approach enhances both the faithfulness and effectiveness of CoT.
arxiv情報
著者 | Jiachun Li,Pengfei Cao,Yubo Chen,Jiexin Xu,Huaijun Li,Xiaojian Jiang,Kang Liu,Jun Zhao |
発行日 | 2025-03-03 13:25:36+00:00 |
arxivサイト | arxiv_id(pdf) |