要約
チェーンオブ思考(COT)プロンプトは、複雑な推論能力を備えた大規模な言語モデル(LLM)を授与する上で不可欠な役割を果たします。
ただし、COTは現在、2つの基本的な課題に直面しています。(1)充足度。これにより、生成された中間推論ステップが最終的な結論を包括的にカバーし、実証することが保証されます。
(2)結果の答えの健全性に本当に不可欠な推論の手順を特定する必要性。
私たちは、十分性と必要性のデュアルレンズを通じてCOTの推論を特徴付ける因果フレームワークを提案します。
十分性と必要性の因果的確率を組み込むことで、予測の結果に論理的に十分または必要なステップを決定するだけでなく、異なる介入シナリオでの最終的な推論結果に対する実際の影響を定量化することにより、失われたステップの自動化された追加と還元剤の剪定が可能になります。
さまざまな数学的および常識的な推論ベンチマークに関する広範な実験結果は、推論効率の大幅な改善と、精度を犠牲にすることなくトークンの使用を減らすことを確認します。
私たちの仕事は、LLMの推論パフォーマンスと費用対効果を改善するための有望な方向性を提供します。
要約(オリジナル)
Chain-of-Thought (CoT) prompting plays an indispensable role in endowing large language models (LLMs) with complex reasoning capabilities. However, CoT currently faces two fundamental challenges: (1) Sufficiency, which ensures that the generated intermediate inference steps comprehensively cover and substantiate the final conclusion; and (2) Necessity, which identifies the inference steps that are truly indispensable for the soundness of the resulting answer. We propose a causal framework that characterizes CoT reasoning through the dual lenses of sufficiency and necessity. Incorporating causal Probability of Sufficiency and Necessity allows us not only to determine which steps are logically sufficient or necessary to the prediction outcome, but also to quantify their actual influence on the final reasoning outcome under different intervention scenarios, thereby enabling the automated addition of missing steps and the pruning of redundant ones. Extensive experimental results on various mathematical and commonsense reasoning benchmarks confirm substantial improvements in reasoning efficiency and reduced token usage without sacrificing accuracy. Our work provides a promising direction for improving LLM reasoning performance and cost-effectiveness.
arxiv情報
著者 | Xiangning Yu,Zhuohan Wang,Linyi Yang,Haoxuan Li,Anjie Liu,Xiao Xue,Jun Wang,Mengyue Yang |
発行日 | 2025-06-11 15:22:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google