On Designing Effective RL Reward at Training Time for LLM Reasoning

要約

報酬モデルは、LLM の推論能力を向上させるためにますます重要になっています。
既存の研究では、十分にトレーニングされた報酬モデルにより、検索による推論時のモデルのパフォーマンスが大幅に向上することが示されています。
ただし、RL トレーニング中の報酬モデルの可能性は依然としてほとんど研究されていません。
これらの報酬モデルが、解の正しさを検証する、まばらな成功報酬を使用する RL トレーニングにおける LLM の推論能力を強化するための追加のトレーニング信号を提供できるかどうかは、現時点では不明です。
この研究では、結果教師あり報酬モデル (ORM) やプロセス教師あり報酬モデル (PRM) など、RL トレーニング用の一般的な報酬モデルを評価し、これらの学習された報酬を組み合わせることにより、RL を使用して数学問題に対する LLM のコレクションをトレーニングします。
成功報酬付き。
驚くべきことに、これらの学習済み報酬モデルは推論時のパフォーマンスが優れているにもかかわらず、RL トレーニングには役立たないか、悪影響を与える可能性があり、成功報酬のみでトレーニングされた LLM よりも悪いパフォーマンスを生み出す可能性があります。
私たちの分析により、LLM は正しいが不必要な推論ステップを繰り返すことで、これらの報酬モデルの一部から高額の報酬を受け取ることができ、重大な報酬ハッキング問題につながる可能性があることが明らかになりました。
したがって、クリッピングとデルタを含む 2 つの新しい報酬絞り込み手法を紹介します。
重要なアイデアは、学習された報酬モデルが悪用されることなく有効性を維持できるように、推論軌跡の累積報酬が上限に達するようにすることです。
MATH および GSM8K ベンチマークで 1.5B および 7B LLM のセットに対する複数の報酬モデルを使用して手法を評価し、慎重に設計された報酬関数を使用すると、追加の教師ありチューニングなしで RL トレーニングを行うと、評価されたすべての LLM が改善できることを実証します。
最先端の 7B LLM Qwen2.5-Math-7B-MATH および GSM8K ベンチマークの説明。

要約(オリジナル)

Reward models have been increasingly critical for improving the reasoning capability of LLMs. Existing research has shown that a well-trained reward model can substantially improve model performances at inference time via search. However, the potential of reward models during RL training time still remains largely under-explored. It is currently unclear whether these reward models can provide additional training signals to enhance the reasoning capabilities of LLMs in RL training that uses sparse success rewards, which verify the correctness of solutions. In this work, we evaluate popular reward models for RL training, including the Outcome-supervised Reward Model (ORM) and the Process-supervised Reward Model (PRM), and train a collection of LLMs for math problems using RL by combining these learned rewards with success rewards. Surprisingly, even though these learned reward models have strong inference-time performances, they may NOT help or even hurt RL training, producing worse performances than LLMs trained with the success reward only. Our analysis reveals that an LLM can receive high rewards from some of these reward models by repeating correct but unnecessary reasoning steps, leading to a severe reward hacking issue. Therefore, we introduce two novel reward refinement techniques, including Clipping and Delta. The key idea is to ensure the accumulative reward of any reasoning trajectory is upper-bounded to keep a learned reward model effective without being exploited. We evaluate our techniques with multiple reward models over a set of 1.5B and 7B LLMs on MATH and GSM8K benchmarks and demonstrate that with a carefully designed reward function, RL training without any additional supervised tuning can improve all the evaluated LLMs, including the state-of-the-art 7B LLM Qwen2.5-Math-7B-Instruct on MATH and GSM8K benchmarks.

arxiv情報

著者 Jiaxuan Gao,Shusheng Xu,Wenjie Ye,Weilin Liu,Chuyi He,Wei Fu,Zhiyu Mei,Guangju Wang,Yi Wu
発行日 2024-10-25 17:34:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク