要約
人間のフィードバック(RLHF)フレームワークからの古典的な強化学習では、近位政策最適化(PPO)が採用され、まばらな文レベルの報酬から学ぶことが採用されています。
大規模な言語モデルの整合におけるPPOの大成功にもかかわらず、そのオープンソースの実装は依然として主に最適です。
これらの問題に対処するために、RLHFの問題をマルコフ決定プロセス(MDP)としてモデル化するフレームワークを紹介し、細粒のトークンごとの情報をキャプチャできるようにします。
このフレームワークの下で、補強トークン最適化(\ texttt {rto})を強化するアルゴリズムを導入します。これは、優先データからトークンごとの報酬機能を学習し、この学習したトークンごとの報酬信号に基づいてポリシー最適化を実行します。
理論的には、\ texttt {rto}は、最適に近いポリシーをサンプル効率的に見つける能力があることが証明されています。
その実用的な実装のために、\ texttt {rto}は、直接優先最適化(DPO)とPPOを革新的に統合します。
もともとはまばらな文の報酬に由来していたDPOは、驚くべきことに、応答品質のトークンごとの特性評価を提供します。これは、その後のPPOトレーニング段階にシームレスに組み込まれています。
広範な実験では、\ texttt {rto}がPPOおよびその他の直接選好学習アルゴリズムよりも優れたパフォーマンスを発揮することが示されています。
特に、RTOは、Alpacaeval 2ベンチマークでPPOを7.5ポイント、アリーナハードで4.1ポイント上回る。
私たちのコードとモデルは、\ href {https://github.com/zkshan2002/rto} {https://github.com/zkshan2002/rto}で入手できます。
要約(オリジナル)
In the classical Reinforcement Learning from Human Feedback (RLHF) framework, Proximal Policy Optimization (PPO) is employed to learn from sparse, sentence-level rewards — a challenging scenario in traditional deep reinforcement learning. Despite the great successes of PPO in the alignment of large language models, its open-source implementation is still largely sub-optimal. To address these issues, we introduce a framework that models RLHF problems as a Markov decision process (MDP), enabling the capture of fine-grained token-wise information. Under this framework, we introduce an algorithm Reinforced Token Optimization (\texttt{RTO}), which learns the token-wise reward function from preference data and performs policy optimization based on this learned token-wise reward signal. Theoretically, \texttt{RTO} is proven to have the capability of finding the near-optimal policy sample-efficiently. For its practical implementation, \texttt{RTO} innovatively integrates Direct Preference Optimization (DPO) and PPO. DPO, originally derived from sparse sentence rewards, surprisingly provides us with a token-wise characterization of response quality, which is seamlessly incorporated into our subsequent PPO training stage. Extensive experiments demonstrate that \texttt{RTO} performs better than PPO and other direct preference learning algorithms. In particular, RTO outperforms PPO by 7.5 points on the AlpacaEval 2 benchmark and by 4.1 points on Arena-Hard. Our code and models are available at \href{https://github.com/zkshan2002/RTO}{https://github.com/zkshan2002/RTO}.
arxiv情報
著者 | Han Zhong,Zikang Shan,Guhao Feng,Wei Xiong,Xinle Cheng,Li Zhao,Di He,Jiang Bian,Liwei Wang |
発行日 | 2025-02-11 17:23:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google