DPO Meets PPO: Reinforced Token Optimization for RLHF


従来のヒューマン フィードバックからの強化学習 (RLHF) フレームワークでは、近接ポリシー最適化 (PPO) を使用して、まばらな文レベルの報酬から学習します。これは、従来の深層強化学習では困難なシナリオです。
最先端のクローズドソース大規模言語モデル (LLM) の調整において PPO は大きな成功を収めているにもかかわらず、多数の研究調査で広く報告されているように、そのオープンソース実装は依然として最適とは言えません。
これらの問題に対処するために、RLHF 問題をマルコフ決定プロセス (MDP) としてモデル化するフレームワークを導入し、きめの細かいトークンごとの情報の取得を可能にします。
さらに、以前の文レベルのバンディット定式化に対する MDP フレームワークの優位性を実証する理論的洞察を提供します。
このフレームワークの下で、強化トークン最適化 (\texttt{RTO}) と呼ばれるアルゴリズムを導入します。このアルゴリズムは、嗜好データからトークンごとの報酬関数を学習し、この学習したトークンごとの報酬シグナルに基づいてポリシーの最適化を実行します。
理論的には、\texttt{RTO} には最適に近いポリシー サンプルを効率的に見つける機能があることが証明されています。
実際の実装のために、\texttt{RTO} は Direct Preference Optimization (DPO) と PPO を革新的に統合します。
DPO はもともとスパース センテンス報酬から派生したもので、驚くべきことに応答品質のトークン単位の特徴付けを提供し、その後の PPO トレーニング ステージにシームレスに組み込まれます。


In the classical Reinforcement Learning from Human Feedback (RLHF) framework, Proximal Policy Optimization (PPO) is employed to learn from sparse, sentence-level rewards — a challenging scenario in traditional deep reinforcement learning. Despite the great successes of PPO in the alignment of state-of-the-art closed-source large language models (LLMs), its open-source implementation is still largely sub-optimal, as widely reported by numerous research studies. To address these issues, we introduce a framework that models RLHF problems as a Markov decision process (MDP), enabling the capture of fine-grained token-wise information. Furthermore, we provide theoretical insights that demonstrate the superiority of our MDP framework over the previous sentence-level bandit formulation. Under this framework, we introduce an algorithm, dubbed as Reinforced Token Optimization (\texttt{RTO}), which learns the token-wise reward function from preference data and performs policy optimization based on this learned token-wise reward signal. Theoretically, \texttt{RTO} is proven to have the capability of finding the near-optimal policy sample-efficiently. For its practical implementation, \texttt{RTO} innovatively integrates Direct Preference Optimization (DPO) and PPO. DPO, originally derived from sparse sentence rewards, surprisingly provides us with a token-wise characterization of response quality, which is seamlessly incorporated into our subsequent PPO training stage. Extensive real-world alignment experiments verify the effectiveness of the proposed approach.


著者 Han Zhong,Guhao Feng,Wei Xiong,Li Zhao,Di He,Jiang Bian,Liwei Wang
発行日 2024-04-29 17:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク