Probabilistic Uncertain Reward Model: A Natural Generalization of Bradley-Terry Reward Model

要約

人間のフィードバック(RLHF)からの強化学習は、大規模な言語モデルをトレーニングするための重要なテクニックとして浮上しています。
ただし、報酬ハッキング – モデルが報酬モデルの欠陥を活用する現象は、長期トレーニングを通じて堅牢でスケーラブルなインテリジェンスを達成するための重要な障壁となっています。
既存の研究では、報酬のハッキングに対処するための不確実な報酬モデルを提案していますが、多くの場合、系統的または理論的な基盤を欠いており、優先データから本質的に出現する不確実性をモデル化できません。
この論文では、古典的なブラッドリー・テリー報酬モデルの自然な一般化である確率的不確実な報酬モデル(PURM)を提案します。
PURMは、優先データから直接報酬分布を学習し、報酬分布間の平均オーバーラップ領域を介してサンプルごとの不確実性を定量化します。
報酬のハッキングを緩和するために、不確実なペナルティを近位政策最適化(PPO)にさらに導入します。これは、学習した不確実性を活用して、報酬の最適化と探索を動的にバランスさせます。
Purmの軽量で使いやすい実装を提案します。
実験は、Purmが報酬ハッキングの開始を大幅に遅らせ、最終的な報酬パフォーマンスを改善し、安定性と有効性の両方でベースライン方法を上回ることを示しています。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) has emerged as a critical technique for training large language models. However, reward hacking-a phenomenon where models exploit flaws in the reward model-remains a significant barrier to achieving robust and scalable intelligence through long-term training. Existing studies have proposed uncertain reward model to address reward hacking, however, they often lack systematic or theoretical foundations, failing to model the uncertainty intrinsically emerging from preference data. In this paper, we propose the Probabilistic Uncertain Reward Model (PURM), a natural generalization of the classical Bradley-Terry reward model. PURM learns reward distributions directly from preference data and quantifies per-sample uncertainty via the average overlap area between reward distributions. To mitigate reward hacking, we further introduce an uncertainty-aware penalty into Proximal Policy Optimization (PPO), which leverages the learned uncertainty to dynamically balance reward optimization and exploration. We propose a lightweight and easy-to-use implementation of PURM. Experiments demonstrate that PURM significantly delays the onset of reward hacking while improving final reward performance, outperforming baseline methods in both stability and effectiveness.

arxiv情報

著者 Wangtao Sun,Xiang Cheng,Xing Yu,Haotian Xu,Zhao Yang,Shizhu He,Jun Zhao,Kang Liu
発行日 2025-03-28 14:39:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク