To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

要約

プロンプトによる思考連鎖 (CoT) は、大規模言語モデル (LLM) から推論機能を引き出すための事実上の方法です。
しかし、この余分な「思考」はどのような種類のタスクに本当に役立つのでしょうか?
これを分析するために、CoT を使用して 100 を超える論文を対象とする定量的メタ分析を実施し、14 のモデルにわたる 20 のデータセットに対して独自の評価を実行しました。
私たちの結果は、CoT が主に数学や論理を含むタスクで大きなパフォーマンス上の利点をもたらし、他のタイプのタスクでははるかに小さな利点をもたらすことを示しています。
MMLU では、質問またはモデルの応答に記号操作と推論を示す等号が含まれていない限り、CoT なしで答えを直接生成すると、CoT とほぼ同じ精度が得られます。
この発見に従って、計画と実行を分離し、ツールで強化された LLM と比較することによって、これらの問題に対する CoT の動作を分析します。
CoT の利点の多くはシンボリック実行の改善によるものですが、シンボリック ソルバーを使用した場合と比べてパフォーマンスが劣ります。
私たちの結果は、CoT を選択的に適用して、推論コストを節約しながらパフォーマンスを維持できることを示しています。
さらに、プロンプトベースの CoT を超えて、LLM アプリケーション全体にわたって中間計算をより適切に活用する新しいパラダイムに移行する必要性を示唆しています。

要約(オリジナル)

Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra “thinking” really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model’s response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT’s gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.

arxiv情報

著者 Zayne Sprague,Fangcong Yin,Juan Diego Rodriguez,Dongwei Jiang,Manya Wadhwa,Prasann Singhal,Xinyu Zhao,Xi Ye,Kyle Mahowald,Greg Durrett
発行日 2024-09-18 17:55:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク