要約
人間のフィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) を人間の好みに合わせるための主要なパラダイムとして浮上しています。
通常、RLHF には、人間のフィードバックから報酬モデルを学習する最初のステップが含まれます。報酬モデルは、事前にトレーニングされた LLM によって生成されたテキスト生成のペア間の好みとして表現されることがよくあります。
その後、LLM のポリシーを最適化することで微調整され、強化学習アルゴリズムを通じて報酬モデルが最大化されます。
しかし、現在の報酬モデルには、人間の好みの豊かさとサンプリング分布への依存性を完全に表現できないという本質的な限界があります。
この研究では、ペアごとの人的フィードバックを使用して LLM を微調整するための代替パイプラインを紹介します。
私たちのアプローチは、プロンプトが与えられた 2 つの入力を条件とする選好モデルの初期学習を必要とし、その後、競合する政策によって生成される反応よりも好まれる反応を一貫して生成する政策を追求することで、この選好モデルのナッシュ均衡を定義します。
。
私たちはこのアプローチを人間のフィードバックからのナッシュ学習 (NLHF) と呼びます。
表形式のポリシー表現のコンテキストで、ミラー降下の原理に基づいた新しいアルゴリズム ソリューションである Nash-MD を紹介します。
このアルゴリズムは、最後の反復で正則化されたナッシュ均衡に収束する一連のポリシーを生成します。
さらに、ポリシーのパラメトリック表現を調査し、深層学習アーキテクチャ用の勾配降下アルゴリズムを導入します。
私たちのアプローチの有効性を実証するために、テキスト要約タスク用の LLM の微調整を含む実験結果を示します。
私たちは、NLHF が、LLM を人間の好みに合わせて調整する分野を前進させる可能性を備えた、好みの学習とポリシーの最適化のための魅力的な手段を提供すると信じています。
要約(オリジナル)
Reinforcement learning from human feedback (RLHF) has emerged as the main paradigm for aligning large language models (LLMs) with human preferences. Typically, RLHF involves the initial step of learning a reward model from human feedback, often expressed as preferences between pairs of text generations produced by a pre-trained LLM. Subsequently, the LLM’s policy is fine-tuned by optimizing it to maximize the reward model through a reinforcement learning algorithm. However, an inherent limitation of current reward models is their inability to fully represent the richness of human preferences and their dependency on the sampling distribution. In this study, we introduce an alternative pipeline for the fine-tuning of LLMs using pairwise human feedback. Our approach entails the initial learning of a preference model, which is conditioned on two inputs given a prompt, followed by the pursuit of a policy that consistently generates responses preferred over those generated by any competing policy, thus defining the Nash equilibrium of this preference model. We term this approach Nash learning from human feedback (NLHF). In the context of a tabular policy representation, we present a novel algorithmic solution, Nash-MD, founded on the principles of mirror descent. This algorithm produces a sequence of policies, with the last iteration converging to the regularized Nash equilibrium. Additionally, we explore parametric representations of policies and introduce gradient descent algorithms for deep-learning architectures. To demonstrate the effectiveness of our approach, we present experimental results involving the fine-tuning of a LLM for a text summarization task. We believe NLHF offers a compelling avenue for preference learning and policy optimization with the potential of advancing the field of aligning LLMs with human preferences.
arxiv情報
著者 | Rémi Munos,Michal Valko,Daniele Calandriello,Mohammad Gheshlaghi Azar,Mark Rowland,Zhaohan Daniel Guo,Yunhao Tang,Matthieu Geist,Thomas Mesnard,Andrea Michi,Marco Selvi,Sertan Girgin,Nikola Momchev,Olivier Bachem,Daniel J. Mankowitz,Doina Precup,Bilal Piot |
発行日 | 2024-06-11 16:25:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google