Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets

要約

数学のような複雑なドメインでは、正確性と多様な推論の両方を達成することは、大規模な言語モデル(LLM)にとって困難なままです。
重要なボトルネックは、費用のかかる人間の注釈なしで生成を導くための中間推論の手順を評価することです。
これに対処するために、まず、類似性ベースのデータ増強技術と組み合わせたモンテカルロツリー検索を使用して、自動的にトレーニングされた新しいプロセス報酬モデル(PRM)を導入し、ステップレベルの推論品質を効果的にキャプチャします。
このPRMを活用して、生成フローネットワーク(Gflownets)を適応させ、推論ステップレベルで動作させます。
単一の報酬を最大化することに焦点を当てた従来の強化学習とは異なり、Gflownetsは、PRMで測定されるように、報酬に比例した多様で高品質のソリューションを自然にサンプリングします。
経験的評価は、挑戦的な数学ベンチマークの精度とソリューションの多様性の両方の強力な改善を示しています(例えば、llama3.2-3bの数学レベル5の +2.59%の絶対精度)。
私たちの研究は、LLMでより堅牢で多用途の数学的推論を開発するためのPRM誘導のステップレベルのGflownetsの可能性を示しています。

要約(オリジナル)

Achieving both accuracy and diverse reasoning remains challenging for Large Language Models (LLMs) in complex domains like mathematics. A key bottleneck is evaluating intermediate reasoning steps to guide generation without costly human annotations. To address this, we first introduce a novel Process Reward Model (PRM) trained automatically using Monte Carlo Tree Search coupled with a similarity-based data augmentation technique, effectively capturing step-level reasoning quality. Leveraging this PRM, we then adapt Generative Flow Networks (GFlowNets) to operate at the reasoning step level. Unlike traditional reinforcement learning focused on maximizing a single reward, GFlowNets naturally sample diverse, high-quality solutions proportional to their rewards, as measured by our PRM. Empirical evaluation shows strong improvements in both accuracy and solution diversity on challenging mathematical benchmarks (e.g., +2.59% absolute accuracy on MATH Level 5 for Llama3.2-3B), with effective generalization to unseen datasets (+9.4% absolute on SAT MATH). Our work demonstrates the potential of PRM-guided, step-level GFlowNets for developing more robust and versatile mathematical reasoning in LLMs.

arxiv情報

著者 Adam Younsi,Abdalgader Abubaker,Mohamed El Amine Seddik,Hakim Hacid,Salem Lahlou
発行日 2025-04-28 16:56:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク