要約
強化学習(RL)は、監視された微調整(SFT)に広く依存せずに、大規模な言語モデルの推論能力を直接強化できます。
この作業では、従来のポリシーグラデーション(PG)メカニズムを再訪し、グループポリシーグラジエント(GPG)と呼ばれるミニマリストRLアプローチを提案します。
従来の方法とは異なり、GPGは元のRL目標を直接最適化し、サロゲート損失関数の必要性を回避します。
批評家と参照モデルを排除し、KLの発散の制約を回避し、利点と勾配推定バイアスに対処することにより、私たちのアプローチは、グループ相対政策最適化(GRPO)と比較してトレーニングプロセスを大幅に簡素化します。
私たちのアプローチは、補助技術や調整に依存することなく、優れたパフォーマンスを実現します。
図1に示すように、広範な実験は、この方法が計算コストを削減するだけでなく、さまざまな単峰性およびマルチモーダルタスクでGRPOを一貫して上回ることを示しています。
私たちのコードは、https://github.com/amap-ml/gpgで入手できます。
要約(オリジナル)
Reinforcement Learning (RL) can directly enhance the reasoning capabilities of large language models without extensive reliance on Supervised Fine-Tuning (SFT). In this work, we revisit the traditional Policy Gradient (PG) mechanism and propose a minimalist RL approach termed Group Policy Gradient (GPG). Unlike conventional methods, GPG directly optimize the original RL objective, thus obviating the need for surrogate loss functions. By eliminating the critic and reference models, avoiding KL divergence constraints, and addressing the advantage and gradient estimation bias, our approach significantly simplifies the training process compared to Group Relative Policy Optimization (GRPO). Our approach achieves superior performance without relying on auxiliary techniques or adjustments. As illustrated in Figure 1, extensive experiments demonstrate that our method not only reduces computational costs but also consistently outperforms GRPO across various unimodal and multimodal tasks. Our code is available at https://github.com/AMAP-ML/GPG.
arxiv情報
著者 | Xiangxiang Chu,Hailang Huang,Xiao Zhang,Fei Wei,Yong Wang |
発行日 | 2025-04-17 15:53:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google