Soft Policy Optimization: Online Off-Policy RL for Sequence Models

要約

言語モデルのRLベースのトレーニングは、PPOなどのポリシー上のメソッドを使用してほぼ排他的に行われます。
これらの方法は、トレーニング、以前の実行、人間の専門家やその他のポリシー、または解読および探索方法によって以前に作成されたものなどの任意のシーケンスから学習することはできません。
これにより、重度のサンプルの非効率性と探査の困難、および政策対応の多様性の潜在的な損失がもたらされます。
さらに、非同期PPOの実装では、頻繁で費用のかかるモデル転送が必要であり、通常、大量のメモリを必要とする値モデルを使用します。
このペーパーでは、任意のオンラインおよびオフラインの軌跡から学習し、個別の値モデルを必要としないシーケンスモデルポリシーのシンプルでスケーラブルで原則的なソフトRLメソッドであるSoft Policy Optimization(SPO)を紹介します。
コードコンテストの実験では、SPOがパス@10のPPOを上回り、メモリ効率が大幅に高く、ポリシー外データの恩恵を受け、安定性の改善、より多様な(つまりソフト)ポリシーを学ぶことができることを示しています。

要約(オリジナル)

RL-based post-training of language models is almost exclusively done using on-policy methods such as PPO. These methods cannot learn from arbitrary sequences such as those produced earlier in training, in earlier runs, by human experts or other policies, or by decoding and exploration methods. This results in severe sample inefficiency and exploration difficulties, as well as a potential loss of diversity in the policy responses. Moreover, asynchronous PPO implementations require frequent and costly model transfers, and typically use value models which require a large amount of memory. In this paper we introduce Soft Policy Optimization (SPO), a simple, scalable and principled Soft RL method for sequence model policies that can learn from arbitrary online and offline trajectories and does not require a separate value model. In experiments on code contests, we shows that SPO outperforms PPO on pass@10, is significantly faster and more memory efficient, is able to benefit from off-policy data, enjoys improved stability, and learns more diverse (i.e. soft) policies.

arxiv情報

著者 Taco Cohen,David W. Zhang,Kunhao Zheng,Yunhao Tang,Remi Munos,Gabriel Synnaeve
発行日 2025-03-07 14:23:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク