Generative Verifiers: Reward Modeling as Next-Token Prediction

要約

検証者または報酬モデルは、大規模言語モデル (LLM) の推論パフォーマンスを強化するためによく使用されます。
一般的なアプローチは Best-of-N 法です。この方法では、LLM によって生成された N 個の候補ソリューションが検証者によってランク付けされ、最良のソリューションが選択されます。
LLM ベースの検証器は通常、ソリューションをスコアリングするための識別分類器としてトレーニングされますが、事前トレーニングされた LLM のテキスト生成機能は利用しません。
この制限を克服するために、代わりに、ユビキタスな次のトークンの予測目標を使用して、検証とソリューション生成を共同でトレーニングする検証者を提案します。
標準のベリファイアと比較して、このような生成ベリファイア (GenRM) は LLM のいくつかの利点から恩恵を受けることができます。LLM は命令チューニングとシームレスに統合し、思考連鎖推論を可能にし、検証を改善するために多数決による追加のテスト時の計算を利用できます。
私たちは、GenRM が識別、DPO 検証者、および LLM-as-a-Judge よりも優れたパフォーマンスを発揮し、その結果、アルゴリズムおよび数学的推論タスクにおける Best-of-N で解決される問題の数が 16 ~ 40% 向上することを実証しました。
さらに、合成検証根拠を使用して GenRM をトレーニングするだけで、数学の問題の微妙なエラーを見つけるのに十分であることがわかりました。
最後に、生成検証器がモデルのサイズと推論時間の計算に合わせて適切にスケールできることを示します。

要約(オリジナル)

Verifiers or reward models are often used to enhance the reasoning performance of large language models (LLMs). A common approach is the Best-of-N method, where N candidate solutions generated by the LLM are ranked by a verifier, and the best one is selected. While LLM-based verifiers are typically trained as discriminative classifiers to score solutions, they do not utilize the text generation capabilities of pretrained LLMs. To overcome this limitation, we instead propose training verifiers using the ubiquitous next-token prediction objective, jointly on verification and solution generation. Compared to standard verifiers, such generative verifiers (GenRM) can benefit from several advantages of LLMs: they integrate seamlessly with instruction tuning, enable chain-of-thought reasoning, and can utilize additional test-time compute via majority voting for better verification. We demonstrate that GenRM outperforms discriminative, DPO verifiers, and LLM-as-a-Judge, resulting in a 16-40% improvement in the number of problems solved with Best-of-N on algorithmic and math reasoning tasks. Furthermore, we find that training GenRM with synthetic verification rationales is sufficient to pick out subtle errors on math problems. Finally, we demonstrate that generative verifiers scale favorably with model size and inference-time compute.

arxiv情報

著者 Lunjun Zhang,Arian Hosseini,Hritik Bansal,Mehran Kazemi,Aviral Kumar,Rishabh Agarwal
発行日 2024-10-11 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク