要約
この論文では、数学の問題解決の各ステップに報酬スコアを割り当てる \textbf{Math-Shepherd} と呼ばれる革新的なプロセス指向の数学プロセス報酬モデルを紹介します。
Math-Shepherd のトレーニングは、自動的に構築されたプロセスごとの監視データを使用して実現され、既存の作業における手動アノテーションへの依存度のボトルネックを打破します。
Math-Shepherd の有効性を 2 つのシナリオで検証します。 1) \textit{Verification}: Math-Shepherd は、大規模言語モデル (LLM) によって生成された複数の出力を再ランク付けするために利用されます。
2) \textit{強化学習}: Math-Shepherd は、段階的な近接ポリシー最適化 (PPO) で LLM を強化するために使用されます。
Math-Shepherd を使用すると、一連のオープンソース LLM が優れたパフォーマンスを発揮します。
たとえば、Math-Shepherd を使用した段階的な PPO により、Mistral-7B の精度が大幅に向上します (GSM8K では 77.9\%$\to$84.1\%、MATH では 28.6\%$\to$33.0\%)。
Math-Shepherd の検証により、GSM8K と MATH で精度をそれぞれ 89.1\% と 43.5\% にさらに高めることができます。
私たちは、自動プロセス監視には LLM の将来の進化にとって大きな可能性があると信じています。
要約(オリジナル)
In this paper, we present an innovative process-oriented math process reward model called \textbf{Math-Shepherd}, which assigns a reward score to each step of math problem solutions. The training of Math-Shepherd is achieved using automatically constructed process-wise supervision data, breaking the bottleneck of heavy reliance on manual annotation in existing work. We explore the effectiveness of Math-Shepherd in two scenarios: 1) \textit{Verification}: Math-Shepherd is utilized for reranking multiple outputs generated by Large Language Models (LLMs); 2) \textit{Reinforcement Learning}: Math-Shepherd is employed to reinforce LLMs with step-by-step Proximal Policy Optimization (PPO). With Math-Shepherd, a series of open-source LLMs demonstrates exceptional performance. For instance, the step-by-step PPO with Math-Shepherd significantly improves the accuracy of Mistral-7B (77.9\%$\to$84.1\% on GSM8K and 28.6\%$\to$33.0\% on MATH). The accuracy can be further enhanced to 89.1\% and 43.5\% on GSM8K and MATH with the verification of Math-Shepherd, respectively. We believe that automatic process supervision holds significant potential for the future evolution of LLMs.
arxiv情報
著者 | Peiyi Wang,Lei Li,Zhihong Shao,R. X. Xu,Damai Dai,Yifei Li,Deli Chen,Y. Wu,Zhifang Sui |
発行日 | 2023-12-28 12:21:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google