要約
強化学習(RL)は、大規模な言語モデルの推論能力を強化するための強力なパラダイムとして浮上していますが、計算とメモリの要件の基本的な非対称性に直面しています。推論は最小メモリフットプリントと恥ずかしく並行していますが、ポリシーの更新には広範な同期が必要であり、メモリが印象的です。
この非対称性に対処するために、ポッド(ダウンサンプリングによるポリシーの最適化)を導入します。これは、並行して多数のロールアウトを生成するが、有益なサブセットでのみ更新することにより、これらのフェーズを戦略的に分離するフレームワークです。
このフレームワーク内で、Max-Variance Down-Samplingを開発します。これは、最大多様な報酬信号でロールアウトを選択する理論的に動機付けられた方法です。
このアプローチには効率的なアルゴリズムソリューションがあることを証明し、Max-Varianceのダウンサンプリングを使用してポッドを備えたGRPOがGSM8Kベンチマーク上の標準GRPOよりも優れたパフォーマンスを達成することを経験的に実証します。
要約(オリジナル)
Reinforcement learning (RL) has emerged as a powerful paradigm for enhancing reasoning capabilities in large language models, but faces a fundamental asymmetry in computation and memory requirements: inference is embarrassingly parallel with a minimal memory footprint, while policy updates require extensive synchronization and are memory-intensive. To address this asymmetry, we introduce PODS (Policy Optimization with Down-Sampling), a framework that strategically decouples these phases by generating numerous rollouts in parallel but updating only on an informative subset. Within this framework, we develop max-variance down-sampling, a theoretically motivated method that selects rollouts with maximally diverse reward signals. We prove that this approach has an efficient algorithmic solution, and empirically demonstrate that GRPO with PODS using max-variance down-sampling achieves superior performance over standard GRPO on the GSM8K benchmark.
arxiv情報
著者 | Yixuan Even Xu,Yash Savani,Fei Fang,Zico Kolter |
発行日 | 2025-04-18 17:49:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google