要約
大規模言語モデル (LLM) の最近の進歩により、特に数学における形式的推論能力への関心が高まっています。
GSM8K ベンチマークは、小学校レベルの問題におけるモデルの数学的推論を評価するために広く使用されています。
GSM8K 上の LLM のパフォーマンスは近年大幅に向上しましたが、その数学的推論能力が本当に進歩したかどうかは依然として不明瞭であり、報告されたメトリクスの信頼性について疑問が生じています。
これらの懸念に対処するために、私たちはいくつかの SOTA オープン モデルとクローズド モデルについて大規模な調査を実施しました。
既存の評価の制限を克服するために、多様な質問セットの生成を可能にするシンボリック テンプレートから作成された改良されたベンチマークである GSM-Symbolic を導入します。
GSM-Symbolic は、より制御可能な評価を可能にし、モデルの推論能力を測定するための重要な洞察とより信頼性の高いメトリクスを提供します。私たちの調査結果では、LLM が同じ質問の異なるインスタンス化に応答するときに顕著な差異を示すことが明らかになりました。
具体的には、GSM-Symbolic ベンチマークで質問内の数値のみを変更すると、すべてのモデルのパフォーマンスが低下します。
さらに、これらのモデルにおける数学的推論の脆弱性を調査し、質問内の文節の数が増加するにつれてパフォーマンスが大幅に低下することを示します。
この低下の原因は、現在の LLM が真の論理的推論を実行できないためであると私たちは仮説を立てています。
彼らはトレーニング データから推論ステップを複製します。
質問に関連すると思われる 1 つの句を追加すると、その句が最終的な答えに必要な推論チェーンに寄与していないにもかかわらず、すべての最先端のモデルで大幅なパフォーマンスの低下 (最大 65%) が発生します。
全体として、私たちの研究は、数学的推論における LLM の機能と限界について、より微妙な理解を提供します。
要約(オリジナル)
Recent advancements in Large Language Models (LLMs) have sparked interest in their formal reasoning capabilities, particularly in mathematics. The GSM8K benchmark is widely used to assess the mathematical reasoning of models on grade-school-level questions. While the performance of LLMs on GSM8K has significantly improved in recent years, it remains unclear whether their mathematical reasoning capabilities have genuinely advanced, raising questions about the reliability of the reported metrics. To address these concerns, we conduct a large-scale study on several SOTA open and closed models. To overcome the limitations of existing evaluations, we introduce GSM-Symbolic, an improved benchmark created from symbolic templates that allow for the generation of a diverse set of questions. GSM-Symbolic enables more controllable evaluations, providing key insights and more reliable metrics for measuring the reasoning capabilities of models.Our findings reveal that LLMs exhibit noticeable variance when responding to different instantiations of the same question. Specifically, the performance of all models declines when only the numerical values in the question are altered in the GSM-Symbolic benchmark. Furthermore, we investigate the fragility of mathematical reasoning in these models and show that their performance significantly deteriorates as the number of clauses in a question increases. We hypothesize that this decline is because current LLMs cannot perform genuine logical reasoning; they replicate reasoning steps from their training data. Adding a single clause that seems relevant to the question causes significant performance drops (up to 65%) across all state-of-the-art models, even though the clause doesn’t contribute to the reasoning chain needed for the final answer. Overall, our work offers a more nuanced understanding of LLMs’ capabilities and limitations in mathematical reasoning.
arxiv情報
著者 | Iman Mirzadeh,Keivan Alizadeh,Hooman Shahrokhi,Oncel Tuzel,Samy Bengio,Mehrdad Farajtabar |
発行日 | 2024-10-07 17:36:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google