要約
ベンチマークスコアが高いにもかかわらず、大規模な言語モデル(LLM)はしばしば単純な問題に失敗し、重要な疑問を提起します。LLMSは数学的原則を学びますか、それとも単にパターンを記憶していますか?
最近の作品のようにますます複雑なベンチマークを設計するのではなく、小学校の2つのinteger追加($ 0 $ 2^{64} $)を使用してこれを調査し、2つのコアプロパティを調査します:通勤($ a+b = b+a $)と組成一般化(等型シンボリックマッピング、E.G。、$ 7 \ rightarrow y $)。
最先端のLLMは、数値追加で73.8-99.8 \%の精度を達成しますが、シンボリックマッピングでパフォーマンスは$ \ leq $ 7.5 \%に崩壊し、学習ルールを一般化できなかったことを示します。
数字カウントと頻繁な通勤違反による非モノトニックパフォーマンススケーリング($ A+B \ NEQ B+A $の1,700件を超えるケース)これをさらにサポートします。
追加ルールを明示的に提供することは、平均して81.2 \%でパフォーマンスを低下させますが、自己実現はベースラインの精度を維持し、LLM算術処理が人間定義の原則と誤って整列されていることを示唆しています。
私たちの調査結果は、現在のLLMが本物のルール学習よりもメモリパターンに依存していることを示しています。これは、アーキテクチャの制限と、真の数学的推論を達成するための新しいアプローチの必要性を強調しています。
要約(オリジナル)
Despite high benchmark scores, Large Language Models (LLMs) often fail simple problem, raising a critical question: Do LLMs learn mathematical principles or merely memorize patterns? Rather than designing increasingly complex benchmarks like recent works, we investigate this using elementary two-integer addition ($0$ to $2^{64}$), probing two core properties: commutativity ($A+B=B+A$) and compositional generalization (via isomorphic symbolic mappings, e.g., $7 \rightarrow y$). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on numerical addition, performance collapses to $\leq$7.5\% under symbolic mapping, indicating failure to generalize learned rules. Non-monotonic performance scaling with digit count and frequent commutativity violations (over 1,700 cases of $A+B \neq B+A$) further support this. Explicitly providing addition rules degrades performance by 81.2\% on average, while self-explanation maintains baseline accuracy, suggesting LLM arithmetic processing is misaligned with human-defined principles. Our findings indicate current LLMs rely on memory pattern over genuine rule learning, highlighting architectural limitations and the need for new approaches to achieve true mathematical reasoning.
arxiv情報
著者 | Yang Yan,Yu Lu,Renjun Xu,Zhenzhong Lan |
発行日 | 2025-04-07 16:57:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google