要約
大規模な言語モデルで推論を改善するための有望なアプローチは、プロセス報酬モデル (PRM) を使用することです。
PRM は、複数ステップの推論トレースの各ステップでフィードバックを提供するため、最終ステップでのみフィードバックを提供する結果報酬モデル (ORM) よりもクレジットの割り当てが向上する可能性があります。
ただし、ステップごとに人間による高密度のラベルを収集することはスケーラブルではなく、自動ラベル付けされたデータから PRM をトレーニングしても、これまでのところ効果は限られています。
PRM に対して検索を実行したり、強化学習 (RL) の高密度報酬として使用したりして、基本ポリシーを改善するには、「プロセス報酬をどのように設計すべきか?」と考えます。
私たちの重要な洞察は、効果的であるためには、ステップに対するプロセス報酬で進捗状況を測定する必要があるということです。つまり、ステップレベルの利点の概念に対応して、ステップを実行する前と後で、将来正しい応答を生成する可能性の変化です。
RLで。
重要なのは、この進捗状況は、基本ポリシーとは異なる証明者ポリシーに基づいて測定される必要があることです。
私たちは理論的に優れた証明者のセットを特徴づけ、その結果、そのような証明者からのプロセス報酬を最適化すると、テスト時の検索とオンライン RL 中の探索が向上することがわかりました。
実際、私たちの特徴付けは、弱い証明者ポリシーがより強力な基本ポリシーを大幅に改善できることを示しており、これは経験的にも観察されています。
私たちは、そのような証明者の下で進捗を予測するためにプロセス アドバンテージ検証者 (PAV) をトレーニングすることによって主張を検証し、ORM と比較して、PAV に対するテスト時検索の精度が $>8\%$ 高く、$1.5-5\times$ 高いことを示します。
計算効率が高い。
PAV からの豊富な報酬を備えたオンライン RL により、ORM と比較してサンプル効率が $5-6\times$ 向上し、精度が $>6\%$ 向上する最初の結果の 1 つが可能になります。
要約(オリジナル)
A promising approach for improving reasoning in large language models is to use process reward models (PRMs). PRMs provide feedback at each step of a multi-step reasoning trace, potentially improving credit assignment over outcome reward models (ORMs) that only provide feedback at the final step. However, collecting dense, per-step human labels is not scalable, and training PRMs from automatically-labeled data has thus far led to limited gains. To improve a base policy by running search against a PRM or using it as dense rewards for reinforcement learning (RL), we ask: ‘How should we design process rewards?’. Our key insight is that, to be effective, the process reward for a step should measure progress: a change in the likelihood of producing a correct response in the future, before and after taking the step, corresponding to the notion of step-level advantages in RL. Crucially, this progress should be measured under a prover policy distinct from the base policy. We theoretically characterize the set of good provers and our results show that optimizing process rewards from such provers improves exploration during test-time search and online RL. In fact, our characterization shows that weak prover policies can substantially improve a stronger base policy, which we also observe empirically. We validate our claims by training process advantage verifiers (PAVs) to predict progress under such provers, and show that compared to ORMs, test-time search against PAVs is $>8\%$ more accurate, and $1.5-5\times$ more compute-efficient. Online RL with dense rewards from PAVs enables one of the first results with $5-6\times$ gain in sample efficiency, and $>6\%$ gain in accuracy, over ORMs.
arxiv情報
著者 | Amrith Setlur,Chirag Nagpal,Adam Fisch,Xinyang Geng,Jacob Eisenstein,Rishabh Agarwal,Alekh Agarwal,Jonathan Berant,Aviral Kumar |
発行日 | 2024-10-10 17:31:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google