The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason

要約

強化学習(RL)を通じて推論するためのトレーニング後の大手言語モデル(LLM)に関する最近の研究は、通常、数学の問題を解決するなど、正確に検証および報酬を与えることができるタスクに焦点を当てています。
対照的に、私たちの研究では、報酬ノイズの影響を調査しています。これは、報酬モデルを使用したLLMのポストトレーニングを含む実際のシナリオのより実用的な考慮事項です。
LLMSは、実質的な報酬ノイズに対する強い堅牢性を示していることがわかりました。
たとえば、数学タスクでの報酬関数の出力の40%を手動で反転させると、QWEN-2.5-7Bモデルが迅速な収束を達成することができ、ノイズレスリワードでトレーニングされたモデルで達成された75%の精度と比較して、数学タスクのパフォーマンスを5%から72%に改善します。
驚くべきことに、「最初に、私は「最初」などの重要な推論フレーズ(つまり、推論パターン報酬、RPR)の外観に報酬を与えるだけで、回答の正確性を確認せずに、モデルはQWEN-2.5-7Bの70%の精度を達成しました(QWEN-2.5-7Bを超える精度を強く正確性と正確な再)。
最終結果に対する推論プロセスの重要性を認識して、RPRと騒々しい報酬モデルを組み合わせました。
RPRは、騒々しい報酬モデルを校正し、潜在的な偽陰性を軽減し、オープンエンドタスクでのLLMのパフォーマンスを向上させるのに役立ちました。
これらの発見は、トレーニング前の段階でモデルの基礎能力を改善することの重要性を示唆している一方で、トレーニング後の技術を進めるための洞察を提供します。
私たちのコードとスクリプトは、https://github.com/trestad/noisy-rewards-in-rearning-to-reasonで入手できます。

要約(オリジナル)

Recent studies on post-training large language models (LLMs) for reasoning through reinforcement learning (RL) typically focus on tasks that can be accurately verified and rewarded, such as solving math problems. In contrast, our research investigates the impact of reward noise, a more practical consideration for real-world scenarios involving the post-training of LLMs using reward models. We found that LLMs demonstrate strong robustness to substantial reward noise. For example, manually flipping 40% of the reward function’s outputs in math tasks still allows a Qwen-2.5-7B model to achieve rapid convergence, improving its performance on math tasks from 5% to 72%, compared to the 75% accuracy achieved by a model trained with noiseless rewards. Surprisingly, by only rewarding the appearance of key reasoning phrases (namely reasoning pattern reward, RPR), such as “first, I need to”-without verifying the correctness of answers, the model achieved peak downstream performance (over 70% accuracy for Qwen-2.5-7B) comparable to models trained with strict correctness verification and accurate rewards. Recognizing the importance of the reasoning process over the final results, we combined RPR with noisy reward models. RPR helped calibrate the noisy reward models, mitigating potential false negatives and enhancing the LLM’s performance on open-ended tasks. These findings suggest the importance of improving models’ foundational abilities during the pre-training phase while providing insights for advancing post-training techniques. Our code and scripts are available at https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.

arxiv情報

著者 Ang Lv,Ruobing Xie,Xingwu Sun,Zhanhui Kang,Rui Yan
発行日 2025-05-28 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク