Let’s Reason Formally: Natural-Formal Hybrid Reasoning Enhances LLM’s Math Capability

要約

LLMSの数学的推論能力を高めることは、数学とコンピューターサイエンスの両方のコミュニティで大きな注目を集めています。
最近の作品は、ベースモデルの純粋な強化学習(RL)方法の可能性を活用することにより、自然言語(NL)推論と正式な言語(FL)の推論の両方で大きな進歩を遂げています。
ただし、RLは、基本モデルに提示されていない新しい機能を伝えるために苦労しており、FLなどのより多くの知識をNL Mathの推論に効果的に統合する必要性を強調しています。
しかし、この統合は、NLとFLの間の問題構造と推論形式に固有の格差のために困難です。
これらの課題に対処するために、FLの専門家をNL Mathの問題解決に組み込むために設計されたエンドツーエンドのフレームワークである** NL-FL Hybridreasoning **を紹介します。
NLおよびFL入力形式のギャップを橋渡しするために、FLの存在定理としてのNLの質問回答(QA)問題を再定式化する * NL-FL問題アライメント *メソッドを提案します。
その後、私たちが提供する *混合問題入力 *手法により、FLの推論はQAと存在の問題の両方を同時に処理できます。
最後に、LLMベースの *回答抽出 *メカニズムを介した推論におけるNLおよびFL出力形式のギャップを軽減します。
包括的な実験では、**ハイブリッドフリーダーの**フレームワークが** 89.80%**および** 84.34%** Math-500およびAMCベンチマークの精度率を達成し、それぞれNLベースラインを4.60%および4.82%上回ることが実証されています。
特に、私たちのフレームワークによって解決されたいくつかの問題は、より多くの試験でもNLベースラインモデルによって未解決のままです。

要約(オリジナル)

Enhancing the mathematical reasoning capabilities of LLMs has garnered significant attention in both the mathematical and computer science communities. Recent works have made substantial progress in both Natural Language (NL) reasoning and Formal Language (FL) reasoning by leveraging the potential of pure Reinforcement Learning (RL) methods on base models. However, RL approaches struggle to impart new capabilities not presented in the base model, highlighting the need to integrate more knowledge like FL into NL math reasoning effectively. Yet, this integration is challenging due to inherent disparities in problem structure and reasoning format between NL and FL. To address these challenges, we introduce **NL-FL HybridReasoning**, an end-to-end framework designed to incorporate the FL expert into NL math problem-solving. To bridge the NL and FL input format gap, we propose the *NL-FL Problem Alignment* method, which reformulates the Question-Answering (QA) problems in NL as existence theorems in FL. Subsequently, the *Mixed Problem Input* technique we provide enables the FL reasoner to handle both QA and existence problems concurrently. Lastly, we mitigate the NL and FL output format gap in reasoning through an LLM-based *Answer Extraction* mechanism. Comprehensive experiments demonstrate that the **HybridReasoning** framework achieves **89.80%** and **84.34%** accuracy rates on the MATH-500 and the AMC benchmarks, surpassing the NL baseline by 4.60% and 4.82%, respectively. Notably, some problems resolved by our framework remain unsolved by the NL baseline model even under a larger number of trials.

arxiv情報

著者 Ruida Wang,Yuxin Li,Yi R.,Fung,Tong Zhang
発行日 2025-05-29 17:39:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク