要約
報酬モデルは、人間の期待に合わせた出力に大きな言語モデルを導く上で重要な役割を果たします。
ただし、テスト時間計算を効果的に利用して報酬モデルのパフォーマンスを向上させるオープンチャレンジは残っています。
この作業では、最終報酬を生成する前に意図的な推論プロセスを実行するように特別に設計された報酬推論モデル(RRM)を紹介します。
チェーンオブシェアの推論を通じて、RRMSは、適切な報酬がすぐには明らかではない場合、複雑なクエリの追加のテスト時間計算を活用します。
RRMSを開発するために、トレーニングデータとして明示的な推論トレースを必要とせずに、自己進化した報酬推論機能を促進する強化学習フレームワークを実装します。
実験結果は、RRMが多様なドメイン全体の報酬モデリングベンチマークで優れたパフォーマンスを達成することを示しています。
特に、RRMが適応的にテスト時間計算を活用して、報酬の精度をさらに向上させることができることを示しています。
事前に処理された報酬推論モデルは、https://huggingface.co/reward-rasoiningで入手できます。
要約(オリジナル)
Reward models play a critical role in guiding large language models toward outputs that align with human expectations. However, an open challenge remains in effectively utilizing test-time compute to enhance reward model performance. In this work, we introduce Reward Reasoning Models (RRMs), which are specifically designed to execute a deliberate reasoning process before generating final rewards. Through chain-of-thought reasoning, RRMs leverage additional test-time compute for complex queries where appropriate rewards are not immediately apparent. To develop RRMs, we implement a reinforcement learning framework that fosters self-evolved reward reasoning capabilities without requiring explicit reasoning traces as training data. Experimental results demonstrate that RRMs achieve superior performance on reward modeling benchmarks across diverse domains. Notably, we show that RRMs can adaptively exploit test-time compute to further improve reward accuracy. The pretrained reward reasoning models are available at https://huggingface.co/Reward-Reasoning.
arxiv情報
著者 | Jiaxin Guo,Zewen Chi,Li Dong,Qingxiu Dong,Xun Wu,Shaohan Huang,Furu Wei |
発行日 | 2025-05-20 17:58:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google