要約
大規模な言語モデル(LLM)は、数学的推論で顕著な進歩を遂げていますが、多くの場合、単一パラダイムの推論に依存しており、多様なタスク全体で有効性を制限しています。
相乗的コラボレーションを可能にするために、自然言語推論(NLR)、アルゴリズム推論(AR)、およびシンボリック推論(SR)を統合する複数の推論パラダイムを統合する新しい統一フレームワークであるチェーンオブリーダーシング(COR)を紹介します。
CORは、異なる推論パラダイムを介して複数の潜在的な答えを生成し、それらを首尾一貫した最終ソリューションに合成します。
モデルがこれらのパラダイムを徐々に習得するためのプログレッシブパラダイムトレーニング(PPT)戦略を提案し、Cor-Math-7Bにつながります。
実験結果は、COR-MATH-7Bが現在のSOTAモデルを大幅に上回り、定理でGPT-4Oよりも最大41.0%の絶対改善を達成し、算術タスクの数学ベンチマークでのRLベースの方法よりも15.0%の改善を達成することを示しています。
これらの結果は、モデルの数学的理解能力の向上を示しており、タスク全体でゼロショットの一般化を可能にします。
要約(オリジナル)
Large Language Models (LLMs) have made notable progress in mathematical reasoning, yet often rely on single-paradigm reasoning, limiting their effectiveness across diverse tasks. We introduce Chain-of-Reasoning (CoR), a novel unified framework integrating multiple reasoning paradigms–Natural Language Reasoning (NLR), Algorithmic Reasoning (AR), and Symbolic Reasoning (SR)–to enable synergistic collaboration. CoR generates multiple potential answers via different reasoning paradigms and synthesizes them into a coherent final solution. We propose a Progressive Paradigm Training (PPT) strategy for models to progressively master these paradigms, leading to CoR-Math-7B. Experimental results demonstrate that CoR-Math-7B significantly outperforms current SOTA models, achieving up to a 41.0% absolute improvement over GPT-4o in theorem proving and a 15.0% improvement over RL-based methods on the MATH benchmark in arithmetic tasks. These results show the enhanced mathematical comprehension ability of our model, enabling zero-shot generalization across tasks.
arxiv情報
著者 | Yiyao Yu,Yuxiang Zhang,Dongdong Zhang,Xiao Liang,Hengyuan Zhang,Xingxing Zhang,Mahmoud Khademi,Hany Awadalla,Junjie Wang,Yujiu Yang,Furu Wei |
発行日 | 2025-05-12 13:04:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google