要約
報酬モデル(RMS)は、大規模な言語モデル(LLM)のトレーニングと推論時のスケールアップに不可欠です。
ただし、既存の報酬モデルは主に人間の好みに焦点を当てており、LLMのトレーニングに強い可能性を示した検証可能な正確性シグナルを無視しています。
この論文では、報酬モデルとさまざまな側面からの検証可能な正確性シグナルを組み合わせて信頼できる報酬を提供する報酬モデルであるエージェント報酬モデリングを提案します。
私たちは、人間の好みの報酬と2つの検証可能な信号を組み合わせた報酬エージェントであるRegidagentという名前の報酬エージェントを経験的に実装します。
既存の報酬モデルベンチマークと推論時間に関する包括的な実験を実施します。
Regidagentはバニラ報酬モデルを大幅に上回り、その有効性を示しています。
さらに、報酬剤を使用してトレーニング優先ペアを構築し、DPO目的でLLMをトレーニングし、従来の報酬モデルと比較してさまざまなNLPベンチマークで優れたパフォーマンスを達成します。
私たちのコードは、さらなる研究を促進するために公開されています(https://github.com/thu-keg/agentic-reward-modeling)。
要約(オリジナル)
Reward models (RMs) are crucial for the training and inference-time scaling up of large language models (LLMs). However, existing reward models primarily focus on human preferences, neglecting verifiable correctness signals which have shown strong potential in training LLMs. In this paper, we propose agentic reward modeling, a reward system that combines reward models with verifiable correctness signals from different aspects to provide reliable rewards. We empirically implement a reward agent, named RewardAgent, that combines human preference rewards with two verifiable signals: factuality and instruction following, to provide more reliable rewards. We conduct comprehensive experiments on existing reward model benchmarks and inference time best-of-n searches on real-world downstream tasks. RewardAgent significantly outperforms vanilla reward models, demonstrating its effectiveness. We further construct training preference pairs using RewardAgent and train an LLM with the DPO objective, achieving superior performance on various NLP benchmarks compared to conventional reward models. Our codes are publicly released to facilitate further research (https://github.com/THU-KEG/Agentic-Reward-Modeling).
arxiv情報
著者 | Hao Peng,Yunjia Qi,Xiaozhi Wang,Zijun Yao,Bin Xu,Lei Hou,Juanzi Li |
発行日 | 2025-02-26 17:19:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google