Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration

要約

LLM の数学的タスクの熟練にもかかわらず、LLM の数学的推論能力の基礎となるメカニズムは依然として議論の対象です。
最近の研究では、思考連鎖 (CoT) プロンプトが LLM に人間のような論理的推論 (システム 2) を採用するよう促し、数学的推論を強化し、認知反射テスト (CRT) で優れた成績を収めることができることを示唆しています。
LLM がシステム 2 のような論理的推論を本当に備えているかどうかを評価するために、CRT 問題に的を絞った変更を導入しました。
私たちの調査結果では、CoT プロンプトを使用しているにもかかわらず、最新の o1-preview モデルを含む主流の LLM が依然として重大なエラー率を示していることが明らかになりました。
さらなる分析によると、彼らは数学的思考の習得を実証するのではなく、主にシステム 1 のような直観的推論とトレーニング データから得られるパターン マッチングに依存していることが示されています。
この発見は、LLM が真の論理的推論能力を備えており、CoT がそれを強化できるという一般的な概念に疑問を投げかけます。
したがって、この研究は、LLM の汎用人工知能への進歩に関する過度に楽観的な予測を和らげる可能性があります。

要約(オリジナル)

Despite their proficiency in math tasks, the mechanisms underlying LLMs’ mathematical reasoning abilities remain a subject of debate. Recent studies suggest that chain-of-thought (CoT) prompts can bolster mathematical reasoning by encouraging LLMs to employ human-like logical reasoning (System 2), enabling them to excel on the Cognitive Reflection Test (CRT). To assess whether LLMs genuinely possess System 2-like logical reasoning, we introduced targeted modifications to CRT problems. Our findings reveal that, despite the use of CoT prompts, mainstream LLMs, including the latest o1-preview model, continue to exhibit a significant error rate. Further analysis indicates that they predominantly rely on System 1-like intuitive reasoning and pattern matching derived from training data, rather than demonstrating mastery of mathematical thinking. This discovery challenges the prevailing notion that LLMs possess genuine logical reasoning abilities and that CoT can enhance them. Consequently, this work may temper overly optimistic projections regarding LLMs’ advancement toward artificial general intelligence.

arxiv情報

著者 Wei Xie,Shuoyoucheng Ma,Zhenhua Wang,Enze Wang,Baosheng Wang,Jinshu Su
発行日 2024-10-23 15:43:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク