要約
トレーニングプロセス報酬モデル(PRMS)の現在のアプローチでは、事前定義されたプレースホルダートークンを使用したり、推論ステップの長さを固定サイズに設定するなど、ルールベースの手法を使用して、応答を複数の推論ステップに分割します。
これらのアプローチは、特定の単語が通常、テキストの真の決定ポイントをマークしないという事実を見落としています。
これに対処するために、Adaptivestepを提案します。これは、次の単語を予測するというモデルの自信に基づいて推論ステップを分割する方法です。
この分割方法は、各ステップでより多くの意思決定情報を提供し、報酬モデル学習などの下流タスクを強化します。
さらに、私たちの方法では手動注釈は必要ありません。
数学的推論とコード生成タスクにおけるAdaptivestepトレーニングを受けたPRMを使用した実験を通じて、その有効性を実証します。
実験結果は、結果のPRMが最先端のベストNパフォーマンスを達成し、トークンレベルの価値誘導デコードで貪欲な検索戦略を上回り、既存のオープンソースと比較して建設コストを30%以上削減することを示しています。
PRMS。
さらに、PRMのパフォーマンス、転送可能性、および一般化機能に関する徹底的な分析とケーススタディを提供します。
要約(オリジナル)
Current approaches for training Process Reward Models (PRMs) often involve breaking down responses into multiple reasoning steps using rule-based techniques, such as using predefined placeholder tokens or setting the reasoning step’s length into a fixed size. These approaches overlook the fact that specific words do not typically mark true decision points in a text. To address this, we propose AdaptiveStep, a method that divides reasoning steps based on the model’s confidence in predicting the next word. This division method provides more decision-making information at each step, enhancing downstream tasks, such as reward model learning. Moreover, our method does not require manual annotation. We demonstrate its effectiveness through experiments with AdaptiveStep-trained PRMs in mathematical reasoning and code generation tasks. Experimental results indicate that the outcome PRM achieves state-of-the-art Best-of-N performance, surpassing greedy search strategy with token-level value-guided decoding, while also reducing construction costs by over 30% compared to existing open-source PRMs. In addition, we provide a thorough analysis and case study on the PRM’s performance, transferability, and generalization capabilities.
arxiv情報
著者 | Yuliang Liu,Junjie Lu,Zhaoling Chen,Chaofeng Qu,Jason Klein Liu,Chonghan Liu,Zefan Cai,Yunhui Xia,Li Zhao,Jiang Bian,Chuheng Zhang,Wei Shen,Zhouhan Lin |
発行日 | 2025-02-19 18:35:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google