LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning

要約

この論文では、大規模言語モデル (LLM) の数学的推論能力を強化するための高度な数学的問題解決フレームワーク LLaMA-Berry を紹介します。
このフレームワークは、モンテカルロ ツリー検索 (MCTS) と反復的自己調整を組み合わせて推論パスを最適化し、ペアごとの報酬モデルを利用してさまざまなパスをグローバルに評価します。
LLM の自己批判機能と書き換え機能を活用することで、MCTS (SR-MCTS) に適用される Self-Refine は、解空間のより効率的な探索を促進することにより、従来の段階的で貪欲な検索アルゴリズムの非効率性と制限を克服します。
次に、ヒューマン フィードバックからの強化学習 (RLHF) からインスピレーションを得たペアごとの好み報酬モデル (PPRM) を使用して、ソリューション間のペアごとの好みをモデル化し、拡張ボルダ カウント (EBC) メソッドを利用してこれらの好みをグローバル ランキング スコアに合成し、
より良い答えを。
このアプローチは、数学的推論タスクにおけるスコアのばらつきと非独立分布の課題に対処します。
このフレームワークは一般的なベンチマークと高度なベンチマークでテストされており、特に GPQA、AIME24、AMC23 などの複雑なオリンピック レベルのベンチマークにおいて、ToT や rStar などの既存の手法と比較して、検索効率と問題解決能力の点で優れたパフォーマンスを示しています。

要約(オリジナル)

This paper presents an advanced mathematical problem-solving framework, LLaMA-Berry, for enhancing the mathematical reasoning ability of Large Language Models (LLMs). The framework combines Monte Carlo Tree Search (MCTS) with iterative Self-Refine to optimize the reasoning path and utilizes a pairwise reward model to evaluate different paths globally. By leveraging the self-critic and rewriting capabilities of LLMs, Self-Refine applied to MCTS (SR-MCTS) overcomes the inefficiencies and limitations of conventional step-wise and greedy search algorithms by fostering a more efficient exploration of solution spaces. Pairwise Preference Reward Model~(PPRM), inspired by Reinforcement Learning from Human Feedback (RLHF), is then used to model pairwise preferences between solutions, utilizing an Enhanced Borda Count (EBC) method to synthesize these preferences into a global ranking score to find better answers. This approach addresses the challenges of scoring variability and non-independent distributions in mathematical reasoning tasks. The framework has been tested on general and advanced benchmarks, showing superior performance in terms of search efficiency and problem-solving capability compared to existing methods like ToT and rStar, particularly in complex Olympiad-level benchmarks, including GPQA, AIME24 and AMC23.

arxiv情報

著者 Di Zhang,Jianbo Wu,Jingdi Lei,Tong Che,Jiatong Li,Tong Xie,Xiaoshui Huang,Shufei Zhang,Marco Pavone,Yuqiang Li,Wanli Ouyang,Dongzhan Zhou
発行日 2024-11-21 07:07:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク