Can LLMs Reason Abstractly Over Math Word Problems Without CoT? Disentangling Abstract Formulation From Arithmetic Computation

要約

最終回答ベースのメトリックは、一般に、数学の単語の問題に関する大規模な言語モデル(LLM)を評価するために使用され、多くの場合、推論能力のプロキシとして採用されます。
ただし、このようなメトリックは、2つの異なるサブスキルを混同します。抽象的な定式化(式を使用した数学的関係のキャプチャ)と算術計算(計算の実行)。
GSM8KとSVAMPに関する解きだれの評価により、COTのないLlama-3とQWEN2.5(1B-32B)の最終回答精度は、算術計算ステップによって圧倒的にボトルネックされており、アブストラクトフォーミュレーションステップではありません。
一般的な信念に反して、COTは主に計算に役立ち、抽象的な定式化には限られていることが示されます。
機械的には、これらの2つのスキルが、抽象的なコンピュートメカニズムを介して推論ステップなしで、単一のフォワードパスでも接続的に構成されていることを示します。モデルは最初に問題の抽象化をキャプチャし、次に計算を処理します。
因果パッチングにより、これらの抽象化が存在し、転送可能で、合成可能であり、計算の前に確認されます。
これらの行動および機構の発見は、LLMの推論を正確に評価し、将来の改善を導くために、解き明された評価の必要性を強調しています。

要約(オリジナル)

Final-answer-based metrics are commonly used for evaluating large language models (LLMs) on math word problems, often taken as proxies for reasoning ability. However, such metrics conflate two distinct sub-skills: abstract formulation (capturing mathematical relationships using expressions) and arithmetic computation (executing the calculations). Through a disentangled evaluation on GSM8K and SVAMP, we find that the final-answer accuracy of Llama-3 and Qwen2.5 (1B-32B) without CoT is overwhelmingly bottlenecked by the arithmetic computation step and not by the abstract formulation step. Contrary to the common belief, we show that CoT primarily aids in computation, with limited impact on abstract formulation. Mechanistically, we show that these two skills are composed conjunctively even in a single forward pass without any reasoning steps via an abstract-then-compute mechanism: models first capture problem abstractions, then handle computation. Causal patching confirms these abstractions are present, transferable, composable, and precede computation. These behavioural and mechanistic findings highlight the need for disentangled evaluation to accurately assess LLM reasoning and to guide future improvements.

arxiv情報

著者 Ziling Cheng,Meng Cao,Leila Pishdad,Yanshuai Cao,Jackie Chi Kit Cheung
発行日 2025-05-29 17:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク