Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning

要約

推論能力、特に複雑な数学の問題を解決する能力は、一般的な知能の重要な要素です。
OpenAIのOシリーズモデルなど、独自の企業による最近の進歩は、推論のタスクについて顕著な進歩を遂げています。
ただし、完全な技術的詳細は不明瞭なままであり、確かに採用されると考えられている技術は、強化学習(RL)と長い思考の連鎖のみです。
このペーパーでは、オレアルと呼ばれる新しいRLフレームワークを提案して、\ textbf {o} utcome \ textbf {re} w \ textbf {a} rdベースの補強\ textbf {l}稼ぐ\ textBf {re}
バイナリ結果の報酬のみが簡単にアクセスできる理由を推論するタスク。
Best-of-N(bon)サンプリングからの正の軌跡をクローニングする動作が、バイナリフィードバック環境でKL規則化された最適ポリシーを学習するのに十分であることを理論的に証明します。
この定式化はさらに、ネガティブサンプルの報酬を再形成して、正と負のサンプル間の勾配の一貫性を確保する必要があることを意味します。
RLのまばらな報酬によってもたらされる長年の困難を軽減するために、それは推論のための長い思考のチェーンの部分的な正確さによってさらに悪化することさえ、さらに学習のための推論軌跡の重要なトークンをサンプリングするためにトークンレベルの報酬モデルを適用します

Orealを使用すると、7Bモデルは、Math-500からRLで94.0パス@1の精度を取得でき、32Bモデルと同等です。
Oreal-32Bは、Math-500で95.0パス@1の精度で蒸留によって訓練された以前の32Bモデルも上回ります。
また、私たちの調査は、RLの初期ポリシーモデルとトレーニングクエリの重要性を示しています。
コード、モデル、およびデータは、将来の研究に利益をもたらすためにリリースされます\ footnote {https://github.com/internlm/oreal}。

要約(オリジナル)

Reasoning abilities, especially those for solving complex math problems, are crucial components of general intelligence. Recent advances by proprietary companies, such as o-series models of OpenAI, have made remarkable progress on reasoning tasks. However, the complete technical details remain unrevealed, and the techniques that are believed certainly to be adopted are only reinforcement learning (RL) and the long chain of thoughts. This paper proposes a new RL framework, termed OREAL, to pursue the performance limit that can be achieved through \textbf{O}utcome \textbf{RE}w\textbf{A}rd-based reinforcement \textbf{L}earning for mathematical reasoning tasks, where only binary outcome rewards are easily accessible. We theoretically prove that behavior cloning on positive trajectories from best-of-N (BoN) sampling is sufficient to learn the KL-regularized optimal policy in binary feedback environments. This formulation further implies that the rewards of negative samples should be reshaped to ensure the gradient consistency between positive and negative samples. To alleviate the long-existing difficulties brought by sparse rewards in RL, which are even exacerbated by the partial correctness of the long chain of thought for reasoning tasks, we further apply a token-level reward model to sample important tokens in reasoning trajectories for learning. With OREAL, for the first time, a 7B model can obtain 94.0 pass@1 accuracy on MATH-500 through RL, being on par with 32B models. OREAL-32B also surpasses previous 32B models trained by distillation with 95.0 pass@1 accuracy on MATH-500. Our investigation also indicates the importance of initial policy models and training queries for RL. Code, models, and data will be released to benefit future research\footnote{https://github.com/InternLM/OREAL}.

arxiv情報

著者 Chengqi Lyu,Songyang Gao,Yuzhe Gu,Wenwei Zhang,Jianfei Gao,Kuikun Liu,Ziyi Wang,Shuaibin Li,Qian Zhao,Haian Huang,Weihan Cao,Jiangning Liu,Hongwei Liu,Junnan Liu,Songyang Zhang,Dahua Lin,Kai Chen
発行日 2025-02-10 18:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク