要約
人間の好みに基づくフィードバックによる強化学習 (RL) は、生成モデルを微調整するための一般的なパラダイムであり、GPT-4 や Claude3 Opus などの優れたモデルを生み出してきました。
このフレームワークは多くの場合、オフラインの嗜好データセットから報酬モデルを学習し、続いてオンライン RL を実行して学習した報酬モデルを最適化する 2 つのステップで構成されます。
この研究では、リセットのアイデアを活用して、証明可能な保証を持つ新しい RLHF アルゴリズムを提案します。
オフライン選好データセットが有益な状態 (つまり、ラベラーが好むデータ) を提供するという事実を動機として、当社の新しいアルゴリズムであるデータセット リセット ポリシー最適化 (DR-PO) は、既存のオフライン選好データセットをオンライン ポリシー トレーニング手順に統合します。
データセット リセット: 常に初期状態分布から開始するのではなく、ポリシー オプティマイザーをオフライン データセット内の状態に直接リセットします。
理論的には、DR-PO は、サンプルの複雑さが有限である一般関数近似の下で、オフライン データセットでカバーされるポリシーと少なくとも同等に優れたパフォーマンスを学習することを示します。
実験では、TL;DR 要約と Anthropic Helpful Harmful (HH) データセットの両方で、DR-PO からの生成が、近接ポリシー最適化 (PPO) および方向優先最適化 (DPO) からの生成よりも優れていることを示します。
GPT4 勝率の指標。
この作業のコードは https://github.com/Cornell-RL/drpo にあります。
要約(オリジナル)
Reinforcement Learning (RL) from Human Preference-based feedback is a popular paradigm for fine-tuning generative models, which has produced impressive models such as GPT-4 and Claude3 Opus. This framework often consists of two steps: learning a reward model from an offline preference dataset followed by running online RL to optimize the learned reward model. In this work, leveraging the idea of reset, we propose a new RLHF algorithm with provable guarantees. Motivated by the fact that offline preference dataset provides informative states (i.e., data that is preferred by the labelers), our new algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing offline preference dataset into the online policy training procedure via dataset reset: it directly resets the policy optimizer to the states in the offline dataset, instead of always starting from the initial state distribution. In theory, we show that DR-PO learns to perform at least as good as any policy that is covered by the offline dataset under general function approximation with finite sample complexity. In experiments, we demonstrate that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH) dataset, the generation from DR-PO is better than that from Proximal Policy Optimization (PPO) and Direction Preference Optimization (DPO), under the metric of GPT4 win-rate. Code for this work can be found at https://github.com/Cornell-RL/drpo.
arxiv情報
著者 | Jonathan D. Chang,Wenhao Zhan,Owen Oertell,Kianté Brantley,Dipendra Misra,Jason D. Lee,Wen Sun |
発行日 | 2024-04-15 01:56:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google