PSPO*: An Effective Process-supervised Policy Optimization for Reasoning Alignment

要約

プロセス監視は、思考連鎖推論の各ステップでフィードバックを提供することにより、推論タスクにおける大規模な言語モデルのパフォーマンスを向上させます。
ただし、効果的なプロセス監視方法が不足しているため、高度な大規模言語モデルであっても論理エラーや冗長な推論が発生する傾向があります。
私たちは、プロセス監視の有効性は、推論チェーンの精度と長さの両方に大きく依存すると主張します。
さらに、これらの要因が推論プロセスの全体的な報酬スコアと非線形の関係を示すことを確認しました。
これらの洞察に触発されて、私たちは、報酬モデルのトレーニングからポリシーの最適化までのワークフローを系統的に概説し、プロセス監視における非線形報酬の重要性を強調する、新しいプロセス監視パラダイムである PSPO* を提案します。
PSPO* に基づいて、PSPO-WRS を開発します。PSPO-WRS は、報酬スコアを決定する際の推論ステップ数を考慮し、非線形報酬形成に調整されたワイブル分布を利用します。
6 つの数学的推論データセットに関する実験結果は、PSPO-WRS が現在の主流モデルよりも一貫して優れていることを示しています。

要約(オリジナル)

Process supervision enhances the performance of large language models in reasoning tasks by providing feedback at each step of chain-of-thought reasoning. However, due to the lack of effective process supervision methods, even advanced large language models are prone to logical errors and redundant reasoning. We claim that the effectiveness of process supervision significantly depends on both the accuracy and the length of reasoning chains. Moreover, we identify that these factors exhibit a nonlinear relationship with the overall reward score of the reasoning process. Inspired by these insights, we propose a novel process supervision paradigm, PSPO*, which systematically outlines the workflow from reward model training to policy optimization, and highlights the importance of nonlinear rewards in process supervision. Based on PSPO*, we develop the PSPO-WRS, which considers the number of reasoning steps in determining reward scores and utilizes an adjusted Weibull distribution for nonlinear reward shaping. Experimental results on six mathematical reasoning datasets demonstrate that PSPO-WRS consistently outperforms current mainstream models.

arxiv情報

著者 Jiawei Li,Xinyue Liang,Yizhe Yang,Chong Feng,Yang Gao
発行日 2024-11-18 16:03:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク