Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification

要約

ヒューマン フィードバックからの強化学習 (RLHF) を適用する場合、報酬はデータから学習されるため、常に何らかの誤差が生じます。
この報酬の指定の誤りにもかかわらず、報酬と正則化のバランスを取ることで望ましい結果が達成されることを期待して、基本モデルからの KL 発散を使用してポリシーを正規化することでこれを軽減するのが一般的です。
報酬関数にライトテール誤差がある場合、より制限の少ない KL ペナルティの下で最適なポリシーが任意に高い有用性を達成できることを示します。
ただし、エラーがヘビーテールの場合、一部のポリシーは、基本モデル以上の実用性を達成していないにもかかわらず、恣意的に高い報酬を獲得します。これを私たちは壊滅的なグッドハートと呼んでいます。
離散最適化手法を適用して報酬モデルの裾を測定し、それらが軽い裾の誤差と一致していることを発見しました。
しかし、多くの実世界のアプリケーションにおけるヘビーテール分布の蔓延は、将来の RL 報酬のソースにヘビーテール エラーが含まれる可能性があり、KL 正則化であっても報酬ハッキングの可能性が高まることを示しています。

要約(オリジナル)

When applying reinforcement learning from human feedback (RLHF), the reward is learned from data and, therefore, always has some error. It is common to mitigate this by regularizing the policy with KL divergence from a base model, with the hope that balancing reward with regularization will achieve desirable outcomes despite this reward misspecification. We show that when the reward function has light-tailed error, optimal policies under less restrictive KL penalties achieve arbitrarily high utility. However, if error is heavy-tailed, some policies obtain arbitrarily high reward despite achieving no more utility than the base model–a phenomenon we call catastrophic Goodhart. We adapt a discrete optimization method to measure the tails of reward models, finding that they are consistent with light-tailed error. However, the pervasiveness of heavy-tailed distributions in many real-world applications indicates that future sources of RL reward could have heavy-tailed error, increasing the likelihood of reward hacking even with KL regularization.

arxiv情報

著者 Thomas Kwa,Drake Thomas,Adrià Garriga-Alonso
発行日 2024-07-19 17:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク