Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning

要約

ヒューマン フィードバックからの強化学習 (RLHF) は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムです。
しかし、現在の RLHF 技術では、多様な集団にわたる個々の人間の好みに自然に生じる差異を説明することはできません。
これらの違いが生じると、従来の RLHF フレームワークではそれらを単純に平均してしまい、個々のサブグループの報酬が不正確になり、パフォーマンスが低下します。
多元的な調整の必要性に対処するために、私たちはマルチモーダルな RLHF メソッドのクラスを開発しました。
私たちが提案する手法は、潜在変数の定式化に基づいており、追加のユーザー固有のデータを使用せずに、新しいユーザー固有の潜在と、この潜在に条件付けされた学習報酬モデルとポリシーを推論します。
概念的には単純ですが、実際には、この報酬モデリングにはモデル アーキテクチャと報酬スケーリングに関するアルゴリズムに関する慎重な考慮が必要であることを示します。
私たちが提案した手法を経験的に検証するために、最初に、それがユーザー固有の報酬関数を推論して最適化することで、シミュレートされた制御問題におけるアンダースペックに対処する方法を提供できることを示します。
次に、多様なユーザーの好みを表す多元的言語データセットで実験を実施し、報酬関数の精度の向上を実証します。
さらに、不確実性の測定とユーザーの好みの積極的な学習という観点から、この確率的フレームワークの利点を示します。
この取り組みにより、異なる好みを持つ多様なユーザー集団から学習することが可能になります。これは、ロボットの学習から基礎モデルの調整までの問題で自然に発生する重要な課題です。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) is a powerful paradigm for aligning foundation models to human values and preferences. However, current RLHF techniques cannot account for the naturally occurring differences in individual human preferences across a diverse population. When these differences arise, traditional RLHF frameworks simply average over them, leading to inaccurate rewards and poor performance for individual subgroups. To address the need for pluralistic alignment, we develop a class of multimodal RLHF methods. Our proposed techniques are based on a latent variable formulation – inferring a novel user-specific latent and learning reward models and policies conditioned on this latent without additional user-specific data. While conceptually simple, we show that in practice, this reward modeling requires careful algorithmic considerations around model architecture and reward scaling. To empirically validate our proposed technique, we first show that it can provide a way to combat underspecification in simulated control problems, inferring and optimizing user-specific reward functions. Next, we conduct experiments on pluralistic language datasets representing diverse user preferences and demonstrate improved reward function accuracy. We additionally show the benefits of this probabilistic framework in terms of measuring uncertainty, and actively learning user preferences. This work enables learning from diverse populations of users with divergent preferences, an important challenge that naturally occurs in problems from robot learning to foundation model alignment.

arxiv情報

著者 Sriyash Poddar,Yanming Wan,Hamish Ivison,Abhishek Gupta,Natasha Jaques
発行日 2024-08-19 15:18:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO パーマリンク