Contrastive Preference Learning: Learning from Human Feedback without RL

要約

ヒューマン フィードバックからの強化学習 (RLHF) は、モデルを人間の意図に合わせるための一般的なパラダイムとして台頭しています。
通常、RLHF アルゴリズムは 2 つのフェーズで動作します。1 つ目は人間の好みを使用して報酬関数を学習し、2 つ目は強化学習 (RL) によって学習した報酬を最適化することでモデルを調整します。
このパラダイムは、人間の好みが報酬に応じて分配されることを前提としていますが、最近の研究では、人間は代わりにユーザーの最適なポリシーの下で後悔に従うことが示唆されています。
したがって、フィードバックから報酬関数を学習することは、人間の好みに関する誤った仮定に基づいているだけでなく、RL フェーズでのポリシーの勾配やブートストラッピングに起因する、扱いにくい最適化の課題にもつながります。
これらの最適化の課題のため、現代の RLHF 手法は、状況に応じたバンディット設定 (大規模言語モデルなど) に制限されたり、観察の次元 (状態ベースのロボティクスなど) に制限されたりしています。
私たちは、人間の好みの後悔に基づくモデルを使用して、人間のフィードバックから行動を最適化するための新しいアルゴリズムファミリーを導入することで、これらの制限を克服します。
最大エントロピーの原理を使用して、報酬関数を学習せずに嗜好から最適なポリシーを学習するアルゴリズムである対照嗜好学習 (CPL) を導き出し、RL の必要性を回避します。
CPL は完全にポリシーから外れており、単純な対照的な目的のみを使用し、任意の MDP に適用できます。
これにより、CPL は従来の方法よりも単純でありながら、高次元の逐次 RLHF 問題にエレガントに対応できるようになります。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) has emerged as a popular paradigm for aligning models with human intent. Typically RLHF algorithms operate in two phases: first, use human preferences to learn a reward function and second, align the model by optimizing the learned reward via reinforcement learning (RL). This paradigm assumes that human preferences are distributed according to reward, but recent work suggests that they instead follow the regret under the user’s optimal policy. Thus, learning a reward function from feedback is not only based on a flawed assumption of human preference, but also leads to unwieldy optimization challenges that stem from policy gradients or bootstrapping in the RL phase. Because of these optimization challenges, contemporary RLHF methods restrict themselves to contextual bandit settings (e.g., as in large language models) or limit observation dimensionality (e.g., state-based robotics). We overcome these limitations by introducing a new family of algorithms for optimizing behavior from human feedback using the regret-based model of human preferences. Using the principle of maximum entropy, we derive Contrastive Preference Learning (CPL), an algorithm for learning optimal policies from preferences without learning reward functions, circumventing the need for RL. CPL is fully off-policy, uses only a simple contrastive objective, and can be applied to arbitrary MDPs. This enables CPL to elegantly scale to high-dimensional and sequential RLHF problems while being simpler than prior methods.

arxiv情報

著者 Joey Hejna,Rafael Rafailov,Harshit Sikchi,Chelsea Finn,Scott Niekum,W. Bradley Knox,Dorsa Sadigh
発行日 2024-04-30 14:36:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク