要約
強化学習(RL)は大規模言語モデル(LLM)のポストトレーニングに広く採用されている。近年、RLによるLLMの推論能力の動機付けは、$textit{適切な学習方法}$によって効果的な推論時間のスケーラビリティが可能になることを示している。RLの重要な課題は、検証可能な質問や人工的なルールを超えて、様々なドメインにおけるLLMのための正確な報酬信号を得ることである。本研究では、一般的なクエリに対して、より多くの推論計算量で報酬モデリング(RM)を改善する方法、すなわち、$textbf{generalist RMの推論時間スケーラビリティ}$を調査し、さらに、適切な学習手法で性能-計算量スケーリングの有効性を改善する方法を調査する。RMアプローチには、異なる入力タイプに対する柔軟性と推論時間スケーリングの可能性を可能にする点的生成報酬モデリング(GRM)を採用する。学習方法として、オンラインRLを通してGRMのスケーラブルな報酬生成動作を促進するために、自己原理批判チューニング(Self-Principled Critique Tuning: SPCT)を提案し、適応的に原理を生成し、正確に批判を生成することで、$textbf{DeepSeek-GRM}$モデルを実現する。さらに、効果的な推論時間のスケーリングのために、並列サンプリングを用いて計算量を拡大し、より良いスケーリング性能のために投票プロセスを導くメタRMを導入する。経験的に、我々は、SPCTがGRMの品質とスケーラビリティを大幅に改善し、様々なRMベンチマークにおいて、深刻なバイアスなしに既存の手法やモデルを凌駕し、訓練時間スケーリングと比較してより良い性能を達成できることを示す。DeepSeek-GRMは、いくつかのタスクにおいてまだ課題を抱えているが、これは、ジェネラリスト報酬システムにおける将来の取り組みによって対処できると考えている。モデルは公開され、オープンソース化される予定である。
要約(オリジナル)
Reinforcement learning (RL) has been widely adopted in post-training for large language models (LLMs) at scale. Recently, the incentivization of reasoning capabilities in LLMs from RL indicates that $\textit{proper learning methods could enable effective inference-time scalability}$. A key challenge of RL is to obtain accurate reward signals for LLMs in various domains beyond verifiable questions or artificial rules. In this work, we investigate how to improve reward modeling (RM) with more inference compute for general queries, i.e. the $\textbf{inference-time scalability of generalist RM}$, and further, how to improve the effectiveness of performance-compute scaling with proper learning methods. For the RM approach, we adopt pointwise generative reward modeling (GRM) to enable flexibility for different input types and potential for inference-time scaling. For the learning method, we propose Self-Principled Critique Tuning (SPCT) to foster scalable reward generation behaviors in GRMs through online RL, to generate principles adaptively and critiques accurately, resulting in $\textbf{DeepSeek-GRM}$ models. Furthermore, for effective inference-time scaling, we use parallel sampling to expand compute usage, and introduce a meta RM to guide voting process for better scaling performance. Empirically, we show that SPCT significantly improves the quality and scalability of GRMs, outperforming existing methods and models in various RM benchmarks without severe biases, and could achieve better performance compared to training-time scaling. DeepSeek-GRM still meets challenges in some tasks, which we believe can be addressed by future efforts in generalist reward systems. The models will be released and open-sourced.
arxiv情報
| 著者 | Zijun Liu,Peiyi Wang,Runxin Xu,Shirong Ma,Chong Ruan,Peng Li,Yang Liu,Yu Wu |
| 発行日 | 2025-04-03 11:19:49+00:00 |
| arxivサイト | arxiv_id(pdf) |