Process Reward Models That Think

要約

ステップバイステップ検証剤 – プロセス報酬モデル(PRMS)とも呼ばれます – は、テスト時間スケーリングの重要な成分です。
PRMSにはステップレベルの監督が必要であり、訓練に費用がかかります。
この作業は、検証チェーン(COT)を生成することにより、ソリューションのすべてのステップを検証する、言語化された段階的報酬モデルとしてデータ効率の高いPRMを構築することを目的としています。
識別PRMSが必要とするものよりも数桁少ないプロセスラベルで微調整された長いCOT検証剤であるThinkPrmを提案します。
私たちのアプローチは、長いCOTモデルの固有の推論能力を活用し、いくつかの挑戦的なベンチマークにわたって、PRM800Kのプロセスラベルの1%のみを使用して、LLM-As-A-A-Judgeおよび差別的検証剤を上回ります。
具体的には、ThinkPrmは、ProcessBench、Math-500、およびAIME ’24のベースラインを、Best-of-N SelectionおよびReward Guided Searchの下で打ち負かします。
GPQA-ダイヤモンドとLiveCodebenchのサブセットでのドメイン外評価では、PRMはそれぞれ完全なPRM800Kで訓練された識別検証剤をそれぞれ8%と4.5%訓練します。
最後に、同じトークン予算の下で、ThinkPrmは検証をスケールアップして、LLM-As-a-Judgeと比較してより効果的に計算され、ProcessBenchのサブセットで7.2%を上回ります。
私たちの仕事は、トレーニングに最小限の監督を必要としながら、検証のためにテスト時間計算をスケーリングできる生成的で長いCOT PRMの価値を強調しています。
コード、データ、モデルはhttps://github.com/mukhal/thinkprmでリリースされます。

要約(オリジナル)

Step-by-step verifiers — also known as process reward models (PRMs) — are a key ingredient for test-time scaling. PRMs require step-level supervision, making them expensive to train. This work aims to build data-efficient PRMs as verbalized step-wise reward models that verify every step in the solution by generating a verification chain-of-thought (CoT). We propose ThinkPRM, a long CoT verifier fine-tuned on orders of magnitude fewer process labels than those required by discriminative PRMs. Our approach capitalizes on the inherent reasoning abilities of long CoT models, and outperforms LLM-as-a-Judge and discriminative verifiers — using only 1% of the process labels in PRM800K — across several challenging benchmarks. Specifically, ThinkPRM beats the baselines on ProcessBench, MATH-500, and AIME ’24 under best-of-N selection and reward-guided search. In an out-of-domain evaluation on a subset of GPQA-Diamond and LiveCodeBench, our PRM surpasses discriminative verifiers trained on the full PRM800K by 8% and 4.5%, respectively. Lastly, under the same token budget, ThinkPRM scales up verification compute more effectively compared to LLM-as-a-Judge, outperforming it by 7.2% on a subset of ProcessBench. Our work highlights the value of generative, long CoT PRMs that can scale test-time compute for verification while requiring minimal supervision for training. Our code, data, and models will be released at https://github.com/mukhal/thinkprm.

arxiv情報

著者 Muhammad Khalifa,Rishabh Agarwal,Lajanugen Logeswaran,Jaekyeom Kim,Hao Peng,Moontae Lee,Honglak Lee,Lu Wang
発行日 2025-04-23 15:44:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク