Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

要約

報酬モデルは、言語モデルのアプリケーションを人間の好みに合わせて調整する上で重要な役割を果たします。
ただし、この設定は、言語モデルが報酬モデルのエラーを悪用して高い推定報酬を達成するインセンティブを生み出します。これは、\emph{報酬ハッキング} とよく呼ばれる現象です。
自然な軽減策は、報酬モデルのアンサンブルをトレーニングし、モデルの出力を集約して、より堅牢な報酬推定値を取得することです。
トレーニング時 (強化学習による) と推論時 (再ランキングによる) の両方でのアライメントへの報酬アンサンブルの適用を検討します。
まず、報酬モデルが \emph{指定不足} であることを示します。分布内で同様に実行される報酬モデルでも、調整して使用すると、分布のシフトにより非常に異なる報酬が得られる可能性があります。
第 2 に、過小仕様は過剰最適化につながり、ある報酬モデルに合わせても、同じデータでトレーニングされた別の報酬モデルで測定される報酬は改善されません。
第三に、過剰最適化は報酬アンサンブルを使用することで軽減され、 \emph{pretraining} シードによって異なるアンサンブルは、 \emph{fine-tuning} シードだけが異なるアンサンブルよりも優れた一般化につながり、どちらも個々の報酬モデルを上回ります。

ただし、事前学習報酬アンサンブルであっても報酬ハッキングは排除されません。アンサンブル内のすべての報酬モデルが同様のエラー パターンを示すため、アンサンブルによって軽減されない定性的報酬ハッキング現象をいくつか示します。

要約(オリジナル)

Reward models play a key role in aligning language model applications towards human preferences. However, this setup creates an incentive for the language model to exploit errors in the reward model to achieve high estimated reward, a phenomenon often termed \emph{reward hacking}. A natural mitigation is to train an ensemble of reward models, aggregating over model outputs to obtain a more robust reward estimate. We explore the application of reward ensembles to alignment at both training time (through reinforcement learning) and inference time (through reranking). First, we show that reward models are \emph{underspecified}: reward models that perform similarly in-distribution can yield very different rewards when used in alignment, due to distribution shift. Second, underspecification results in overoptimization, where alignment to one reward model does not improve reward as measured by another reward model trained on the same data. Third, overoptimization is mitigated by the use of reward ensembles, and ensembles that vary by their \emph{pretraining} seeds lead to better generalization than ensembles that differ only by their \emph{fine-tuning} seeds, with both outperforming individual reward models. However, even pretrain reward ensembles do not eliminate reward hacking: we show several qualitative reward hacking phenomena that are not mitigated by ensembling because all reward models in the ensemble exhibit similar error patterns.

arxiv情報

著者 Jacob Eisenstein,Chirag Nagpal,Alekh Agarwal,Ahmad Beirami,Alex D’Amour,DJ Dvijotham,Adam Fisch,Katherine Heller,Stephen Pfohl,Deepak Ramachandran,Peter Shaw,Jonathan Berant
発行日 2023-12-14 18:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク