要約
報酬モデリングは、言語モデルのスケーラブルなアラインメントの有望なアプローチとして浮上しています。
ただし、現代の報酬モデル(RMS)はしばしば堅牢性を欠いており、低品質の分散型(OOD)サンプルに高い報酬を与えます。
これにより、ポリシーが意図しないショートカットを活用して報酬を最大化し、アラインメントを損なうハッキングに報酬を与える可能性があります。
この課題に対処するために、敵対的な例を自動的に識別する新しい敵対的な訓練フレームワークであるADV-RMを紹介します。これは、ターゲットRMから高い報酬を受け取るが、OODで低品質です。
補強学習を活用することにより、ADV-RMは、Nemotron 340B RMなどの最先端の大規模な報酬モデルで脆弱性を確実に暴露する敵対的な例を生成するためのポリシーを訓練します。
これらの敵対的な例を報酬トレーニングプロセスに組み込むと、RMSの堅牢性が向上し、報酬のハッキングを軽減し、RLHFのダウンストリームパフォーマンスを向上させます。
ADV-RMは、従来のRMトレーニングを大幅に上回り、安定性を高め、合成および実際の両方の設定でより効果的なRLHFトレーニングを可能にすることを実証します。
要約(オリジナル)
Reward modeling has emerged as a promising approach for the scalable alignment of language models. However, contemporary reward models (RMs) often lack robustness, awarding high rewards to low-quality, out-of-distribution (OOD) samples. This can lead to reward hacking, where policies exploit unintended shortcuts to maximize rewards, undermining alignment. To address this challenge, we introduce Adv-RM, a novel adversarial training framework that automatically identifies adversarial examples — responses that receive high rewards from the target RM but are OOD and of low quality. By leveraging reinforcement learning, Adv-RM trains a policy to generate adversarial examples that reliably expose vulnerabilities in large state-of-the-art reward models such as Nemotron 340B RM. Incorporating these adversarial examples into the reward training process improves the robustness of RMs, mitigating reward hacking and enhancing downstream performance in RLHF. We demonstrate that Adv-RM significantly outperforms conventional RM training, increasing stability and enabling more effective RLHF training in both synthetic and real-data settings.
arxiv情報
著者 | Alexander Bukharin,Haifeng Qian,Shengyang Sun,Adithya Renduchintala,Soumye Singhal,Zhilin Wang,Oleksii Kuchaiev,Olivier Delalleau,Tuo Zhao |
発行日 | 2025-04-08 15:38:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google