PSPO*: An Effective Process-supervised Policy Optimization for Reasoning Alignment

要約

プロセス監督は、考え方の推論の各段階でフィードバックを提供することにより、推論タスクにおける大規模な言語モデルのパフォーマンスを向上させます。
ただし、効果的なプロセス監督方法がないため、高度な大規模な言語モデルでさえ、論理的なエラーと冗長な推論が発生しやすくなります。
プロセス監督の有効性は、推論チェーンの精度と長さの両方に大きく依存すると主張しています。
さらに、これらの要因は、推論プロセスの全体的な報酬スコアと非線形関係を示すことを特定します。
これらの洞察に触発されて、私たちは、報酬モデルのトレーニングからポリシーの最適化までのワークフローを体系的に概説し、プロセス監督における非線形報酬の重要性を強調する新しいプロセス監督パラダイムPSPO*を提案します。
PSPO*に基づいて、PSPO-WRSを開発します。これは、報酬スコアを決定する際の推論ステップの数を考慮し、非線形報酬形状に調整されたワイブル分布を利用します。
6つの数学的推論データセットの実験結果は、PSPO-WRが現在の主流モデルを常に上回ることを示しています。

要約(オリジナル)

Process supervision enhances the performance of large language models in reasoning tasks by providing feedback at each step of chain-of-thought reasoning. However, due to the lack of effective process supervision methods, even advanced large language models are prone to logical errors and redundant reasoning. We claim that the effectiveness of process supervision significantly depends on both the accuracy and the length of reasoning chains. Moreover, we identify that these factors exhibit a nonlinear relationship with the overall reward score of the reasoning process. Inspired by these insights, we propose a novel process supervision paradigm, PSPO*, which systematically outlines the workflow from reward model training to policy optimization, and highlights the importance of nonlinear rewards in process supervision. Based on PSPO*, we develop the PSPO-WRS, which considers the number of reasoning steps in determining reward scores and utilizes an adjusted Weibull distribution for nonlinear reward shaping. Experimental results on six mathematical reasoning datasets demonstrate that PSPO-WRS consistently outperforms current mainstream models.

arxiv情報

著者 Jiawei Li,Xinyue Liang,Junlong Zhang,Yizhe Yang,Chong Feng,Yang Gao
発行日 2025-05-14 14:01:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク