DPO Meets PPO: Reinforced Token Optimization for RLHF

要約

従来のヒューマン フィードバックからの強化学習 (RLHF) フレームワークでは、近接ポリシー最適化 (PPO) を使用して、まばらな文レベルの報酬から学習します。これは、従来の深層強化学習では困難なシナリオです。
最先端のクローズドソース大規模言語モデル (LLM) の調整において PPO は大きな成功を収めているにもかかわらず、多数の研究調査で広く報告されているように、そのオープンソース実装は依然として最適とは言えません。
これらの問題に対処するために、RLHF 問題をマルコフ決定プロセス (MDP) としてモデル化するフレームワークを導入し、きめの細かいトークンごとの情報の取得を可能にします。
さらに、以前の文レベルのバンディット定式化に対する MDP フレームワークの優位性を実証する理論的洞察を提供します。
このフレームワークの下で、強化トークン最適化 (\texttt{RTO}) と呼ばれるアルゴリズムを導入します。このアルゴリズムは、嗜好データからトークンごとの報酬関数を学習し、この学習したトークンごとの報酬シグナルに基づいてポリシーの最適化を実行します。
理論的には、\texttt{RTO} には最適に近いポリシー サンプルを効率的に見つける機能があることが証明されています。
実際の実装のために、\texttt{RTO} は Direct Preference Optimization (DPO) と PPO を革新的に統合します。
DPO はもともとスパース センテンス報酬から派生したもので、驚くべきことに応答品質のトークン単位の特徴付けを提供し、その後の PPO トレーニング ステージにシームレスに組み込まれます。
広範な現実世界での位置合わせ実験により、提案されたアプローチの有効性が検証されています。

要約(オリジナル)

In the classical Reinforcement Learning from Human Feedback (RLHF) framework, Proximal Policy Optimization (PPO) is employed to learn from sparse, sentence-level rewards — a challenging scenario in traditional deep reinforcement learning. Despite the great successes of PPO in the alignment of state-of-the-art closed-source large language models (LLMs), its open-source implementation is still largely sub-optimal, as widely reported by numerous research studies. To address these issues, we introduce a framework that models RLHF problems as a Markov decision process (MDP), enabling the capture of fine-grained token-wise information. Furthermore, we provide theoretical insights that demonstrate the superiority of our MDP framework over the previous sentence-level bandit formulation. Under this framework, we introduce an algorithm, dubbed as Reinforced Token Optimization (\texttt{RTO}), which learns the token-wise reward function from preference data and performs policy optimization based on this learned token-wise reward signal. Theoretically, \texttt{RTO} is proven to have the capability of finding the near-optimal policy sample-efficiently. For its practical implementation, \texttt{RTO} innovatively integrates Direct Preference Optimization (DPO) and PPO. DPO, originally derived from sparse sentence rewards, surprisingly provides us with a token-wise characterization of response quality, which is seamlessly incorporated into our subsequent PPO training stage. Extensive real-world alignment experiments verify the effectiveness of the proposed approach.

arxiv情報

著者 Han Zhong,Guhao Feng,Wei Xiong,Li Zhao,Di He,Jiang Bian,Liwei Wang
発行日 2024-04-29 17:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク