Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint

要約

この論文では、ヒューマン フィードバックからの強化学習 (RLHF) を使用した生成モデルの調整プロセスを研究します。
私たちはまず、オフライン PPO やオフライン DPO などの既存の一般的な手法の主な課題を、環境の戦略的探査が欠けていることとして特定します。
次に、RLHF の数学的原理を理解するために、標準的な数学的定式化である RLHF の逆 KL 正則化コンテキスト バンディットを検討します。
広く実用化されているにもかかわらず、この定式化の厳密な理論的分析は未解決のままです。
私たちは、オフライン、オンライン、ハイブリッドという 3 つの異なる設定でその動作を調査し、有限サンプルの理論的保証を備えた効率的なアルゴリズムを提案します。
実用化に向けて、情報理論的政策改善オラクルの堅牢な近似を備えた私たちのフレームワークは、当然のことながら、いくつかの新しい RLHF アルゴリズムを生み出します。
これには、オンライン設定用の反復バージョンの Direct Preference Optimization (DPO) アルゴリズムと、オフライン シナリオ用の複数ステップの拒否サンプリング戦略が含まれます。
大規模言語モデルの実世界のアライメント実験に対する私たちの経験的評価は、これらの提案された手法が DPO や拒否サンプリング最適化 (RSO) などの既存の強力なベースラインを大幅に上回っていることを実証し、強固な理論的基礎とその強力な実践的実装の間のつながりを示しています。

要約(オリジナル)

This paper studies the alignment process of generative models with Reinforcement Learning from Human Feedback (RLHF). We first identify the primary challenges of existing popular methods like offline PPO and offline DPO as lacking in strategical exploration of the environment. Then, to understand the mathematical principle of RLHF, we consider a standard mathematical formulation, the reverse-KL regularized contextual bandit for RLHF. Despite its widespread practical application, a rigorous theoretical analysis of this formulation remains open. We investigate its behavior in three distinct settings — offline, online, and hybrid — and propose efficient algorithms with finite-sample theoretical guarantees. Moving towards practical applications, our framework, with a robust approximation of the information-theoretical policy improvement oracle, naturally gives rise to several novel RLHF algorithms. This includes an iterative version of the Direct Preference Optimization (DPO) algorithm for online settings, and a multi-step rejection sampling strategy for offline scenarios. Our empirical evaluations on real-world alignment experiment of large language model demonstrate that these proposed methods significantly surpass existing strong baselines, such as DPO and Rejection Sampling Optimization (RSO), showcasing the connections between solid theoretical foundations and their potent practical implementations.

arxiv情報

著者 Wei Xiong,Hanze Dong,Chenlu Ye,Ziqi Wang,Han Zhong,Heng Ji,Nan Jiang,Tong Zhang
発行日 2024-05-01 14:50:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク