要約
グループ相対ポリシー最適化(GRPO)が導入され、検証可能またはバイナリ報酬を使用してLLMSの推論能力を促進するためのDeepSeek R1モデルのトレーニングに成功裏に使用されました。
このペーパーでは、検証可能な報酬を備えたGRPOは、Cullback Leibler($ \ Mathsf {Kl} $)の正規化対照損失として書くことができることを示しています。
最適なGRPOポリシー$ \ PI_ {n} $は、バイナリ報酬の観点から明示的に表現できます。また、古いポリシー($ \ pi_ {n-1} $)および参照ポリシー$ \ pi_0 $の1次および2次統計。
このスキームを繰り返して、一連のポリシー$ \ pi_ {n} $を取得します。これにより、成功の確率$ p_n $を定量化できます。
ポリシーの成功の確率は、成功の初期確率$ p_0 $と正規化パラメーター$ \ beta $の$ \ mathsf {kl} $ reloliinizerに依存する関数の固定点に収束する再発を満たすことを示します。
固定点$ p^*$が$ p_0 $よりも大きいことが保証されていることを示しているため、GRPOがポリシーの成功の確率を効果的に増幅することを示しています。
要約(オリジナル)
Group Relative Policy Optimization (GRPO) was introduced and used successfully to train DeepSeek R1 models for promoting reasoning capabilities of LLMs using verifiable or binary rewards. We show in this paper that GRPO with verifiable rewards can be written as a Kullback Leibler ($\mathsf{KL}$) regularized contrastive loss, where the contrastive samples are synthetic data sampled from the old policy. The optimal GRPO policy $\pi_{n}$ can be expressed explicitly in terms of the binary reward, as well as the first and second order statistics of the old policy ($\pi_{n-1}$) and the reference policy $\pi_0$. Iterating this scheme, we obtain a sequence of policies $\pi_{n}$ for which we can quantify the probability of success $p_n$. We show that the probability of success of the policy satisfies a recurrence that converges to a fixed point of a function that depends on the initial probability of success $p_0$ and the regularization parameter $\beta$ of the $\mathsf{KL}$ regularizer. We show that the fixed point $p^*$ is guaranteed to be larger than $p_0$, thereby demonstrating that GRPO effectively amplifies the probability of success of the policy.
arxiv情報
著者 | Youssef Mroueh |
発行日 | 2025-03-14 15:25:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google