BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

要約

最先端の大規模言語モデル (LLM) は、分割統治パイプラインとインコンテキスト学習 (ICL) サンプルの支援を使用して、複雑な数学問題を解決する際に有望なパフォーマンスを示します。
ただし、改善の可能性は、ICL サンプル内の 2 つの重大な問題、粒度の不一致と、それに伴う悪影響ノイズの問題によって制限されています。
具体的には、LLM は分割プロセスが可能ですが、ほとんどの場合、いくつかの征服ステップ内で不正確な推論によって失敗しますが、質問粒度で取得された ICL の例には、特定の困難な推論ステップに関連するステップが欠けている場合があります。
さらに、この切断は無関係であるため、正しい推論を妨げる可能性があります。
この目的を達成するために、私たちは各ステップ内の推論の質を向上させることに焦点を当て、BoostStep を提示します。
BoostStep は、取得と推論の間の粒度をステップ粒度で調整し、新しい「ファーストトライ」戦略を使用して推論ステップごとに関連性の高い ICL サンプルを提供します。
BoostStep は、大まかな質問粒度の戦略よりも関連性の高い例を提供し、各ステップ内のモデル推論の品質を着実に高めます。
BoostStep は、スタンドアロン推論のパフォーマンスを向上させるだけでなく、モンテカルロ ツリー検索手法 (MCTS) とシームレスに統合して、候補の生成と意思決定の両方を改善する、一般的で堅牢な推論強化手法です。
定量的には、さまざまな数学的ベンチマークで GPT-4o と Qwen2.5-Math-72B がそれぞれ 3.6\% と 2.0\% 向上し、MCTS と組み合わせると 7.5\% 向上します。

要約(オリジナル)

Cutting-edge large language models (LLMs) demonstrate promising performance in solving complex math problems with a divide-and-conquer pipeline and the assistance of in-context learning (ICL) examples. However, their potential for improvement is limited by two critical problems within their ICL examples: granularity-mismatch and the ensuing negative-effect noise problem. Specifically, the LLMs are capable of the dividing process yet mostly failed by inaccurate reasoning within a few conquer steps, while the ICL examples retrieved in question-grained sometimes lack relevant steps for a specific challenging reasoning step. Further, this disconnect may hinder the correct reasoning due to its irrelevance. To this end, we focus on improving the reasoning quality within each step and present BoostStep. BoostStep aligns the granularity between the retrieving and reasoning on step grained, and provides highly related ICL examples for each reasoning step with a novel `first-try’ strategy. BoostStep provides more relevant examples than the coarse question-grained strategy, enhancing the model reasoning quality within each step steadily. BoostStep is a general and robust reasoning-enhancing method that not only improves standalone reasoning performance but also integrates seamlessly with Monte Carlo Tree Search methods (MCTS) to refine both candidate generation and decision-making. Quantitatively, it improves GPT-4o and Qwen2.5-Math-72B by 3.6\% and 2.0\% respectively on various mathematical benchmarks, and 7.5\% gain combined with MCTS.

arxiv情報

著者 Beichen Zhang,Yuhong Liu,Xiaoyi Dong,Yuhang Zang,Pan Zhang,Haodong Duan,Yuhang Cao,Dahua Lin,Jiaqi Wang
発行日 2025-01-06 18:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク