要約
このメモでは、Group Policy Optimization(GRPO)アルゴリズムによって達成された好みの集約を調べます。これは、DeepSeek-R1-ZeroやDeepSeekmathなどの高度な人工知能モデルをトレーニングするために使用される強化学習方法です。
GRPOアルゴリズムは、報酬優先モデルを使用してポリシーをトレーニングします。これは、特定のコンテキストの出力のセットをサンプリングし、対応する報酬を観察し、これらの報酬値にシフトアンドスケールの正規化を適用することによって計算されます。
さらに、参照ポリシーからの逸脱を思いとどまらせるためのペナルティ関数が組み込まれています。
GRPOアルゴリズムの定常ポリシーを特徴付けることができるフレームワークを提示します。
この分析では、好みの集約は、RLHFなどの他のアプローチによって実装される標準的な対数プーリングと基本的に異なることが明らかになりました。
優先集合の正確な形式は、報酬優先モデルの定義方法とペナルティ関数から生じます。これは、逆カルバック繰り返し(kl)の分別ポリシーと参照ポリシーの間の相互作用に本質的に対応することを示しています。
興味深いことに、サイズ2のグループについては、報酬選好モデルは、ペアワイズ比較フィードバックに基づいた他のアライメント方法のものと同様に、ペアワイズ比較の好みに対応することを実証します。
サイズ2のグループ、および大きなグループサイズの限界において、バイナリの質問に対する集計の好みの明示的な特性を提供します。
これにより、正規化定数や質問の信頼マージンなどのパラメーターへの集計設定の依存性に関する洞察が得られます。
最後に、GRPOアルゴリズムを変更してペナルティとして直接KL発散を使用するか、スケールの正規化なしで報酬を使用することによって得られた好みの集約について説明します。
要約(オリジナル)
In this note, we examine the aggregation of preferences achieved by the Group Policy Optimisation (GRPO) algorithm, a reinforcement learning method used to train advanced artificial intelligence models such as DeepSeek-R1-Zero and DeepSeekMath. The GRPO algorithm trains a policy using a reward preference model, which is computed by sampling a set of outputs for a given context, observing the corresponding rewards, and applying shift-and-scale normalisation to these reward values. Additionally, it incorporates a penalty function to discourage deviations from a reference policy. We present a framework that enables us to characterise the stationary policies of the GRPO algorithm. This analysis reveals that the aggregation of preferences differs fundamentally from standard logarithmic pooling, which is implemented by other approaches such as RLHF. The precise form of preference aggregation arises from the way the reward preference model is defined and from the penalty function, which we show to essentially correspond to the reverse Kullback-Leibler (KL) divergence between the aggregation policy and the reference policy. Interestingly, we demonstrate that for groups of size two, the reward preference model corresponds to pairwise comparison preferences, similar to those in other alignment methods based on pairwise comparison feedback. We provide explicit characterisations of the aggregate preference for binary questions, for groups of size two, and in the limit of large group size. This provides insights into the dependence of the aggregate preference on parameters such as the regularisation constant and the confidence margin of question answers. Finally, we discuss the aggregation of preferences obtained by modifying the GRPO algorithm to use direct KL divergence as the penalty or to use rewards without scale normalisation.
arxiv情報
著者 | Milan Vojnovic,Se-Young Yun |
発行日 | 2025-03-13 16:48:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google