Confronting Reward Model Overoptimization with Constrained RLHF

要約

大規模な言語モデルは通常、人間のフィードバックに合わせて $\textit{報酬モデル}$ (RM) を最適化することで人間の好みに合わせます。
しかし、人間の好みは多面的であり、それぞれが言語品質の異なる側面を捉えた、より単純な報酬モデルの構成から報酬を導き出すことがますます一般的になっています。
これらのコンポーネント RM を組み合わせるときに適切に重み付けすることが難しいため、これ自体が課題となります。
この問題をさらに悪化させるのは、どの RM も人間による評価の代理にすぎないため、このプロセスは $\textit{過剰最適化}$ に対して脆弱であり、ある時点を超えると、より高い報酬を蓄積すると、人間による評価が低下することになります。
この論文では、私たちの知る限り、複合 RM における過剰最適化に関する最初の研究を実行し、コンポーネント RM 間の相関がこれらの点の位置に重大な影響を与えることを示しました。
次に、エージェントが各 RM の有用性のしきい値を超えないようにする手段として、制約付き強化学習を使用して、この問題を解決するアプローチを紹介します。
私たちの方法は、ラグランジュ乗数によって自然に表現される動的な重みを学習することによってコンポーネント RM の重み付けの問題に対処します。
その結果、各 RM は有効なプロキシである範囲内に留まり、評価パフォーマンスが向上します。
最後に、勾配のない最適化を使用して、1 回の実行中にこれらのポイントを特定して最適化する適応手法を導入します。

要約(オリジナル)

Large language models are typically aligned with human preferences by optimizing $\textit{reward models}$ (RMs) fitted to human feedback. However, human preferences are multi-faceted, and it is increasingly common to derive reward from a composition of simpler reward models which each capture a different aspect of language quality. This itself presents a challenge, as it is difficult to appropriately weight these component RMs when combining them. Compounding this difficulty, because any RM is only a proxy for human evaluation, this process is vulnerable to $\textit{overoptimization}$, wherein past a certain point, accumulating higher reward is associated with worse human ratings. In this paper, we perform, to our knowledge, the first study on overoptimization in composite RMs, showing that correlation between component RMs has a significant effect on the locations of these points. We then introduce an approach to solve this issue using constrained reinforcement learning as a means of preventing the agent from exceeding each RM’s threshold of usefulness. Our method addresses the problem of weighting component RMs by learning dynamic weights, naturally expressed by Lagrange multipliers. As a result, each RM stays within the range at which it is an effective proxy, improving evaluation performance. Finally, we introduce an adaptive method using gradient-free optimization to identify and optimize towards these points during a single run.

arxiv情報

著者 Ted Moskovitz,Aaditya K. Singh,DJ Strouse,Tuomas Sandholm,Ruslan Salakhutdinov,Anca D. Dragan,Stephen McAleer
発行日 2023-10-10 15:01:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク