Generative Verifiers: Reward Modeling as Next-Token Prediction

要約

検証者または報酬モデルは、大規模言語モデル (LLM) の推論パフォーマンスを強化するためによく使用されます。
一般的なアプローチは Best-of-N 法です。この方法では、LLM によって生成された N 個の候補ソリューションが検証者によってランク付けされ、最良のソリューションが選択されます。
LLM ベースの検証器は通常、ソリューションをスコアリングするための識別分類器としてトレーニングされますが、事前トレーニングされた LLM のテキスト生成機能は利用しません。
この制限を克服するために、代わりに、ユビキタスな次のトークンの予測目標を使用して、検証とソリューション生成を共同でトレーニングする検証者を提案します。
標準の検証器と比較して、このような生成検証器 (GenRM) は LLM のいくつかの利点を活用できます。つまり、命令調整とシームレスに統合し、思考連鎖推論を可能にし、検証を改善するために多数決による追加の推論時間の計算を利用できます。
アルゴリズムおよび小学校の算数推論タスクで Gemma ベースの検証ツールを使用すると、GenRM が識別検証ツールや LLM-as-a-Judge よりも優れたパフォーマンスを発揮し、Best-of-
N.
さらに、GenRM がデータセット サイズ、モデル容量、推論時間のコンピューティングにわたって良好にスケーリングできることを示します。

要約(オリジナル)

Verifiers or reward models are often used to enhance the reasoning performance of large language models (LLMs). A common approach is the Best-of-N method, where N candidate solutions generated by the LLM are ranked by a verifier, and the best one is selected. While LLM-based verifiers are typically trained as discriminative classifiers to score solutions, they do not utilize the text generation capabilities of pretrained LLMs. To overcome this limitation, we instead propose training verifiers using the ubiquitous next-token prediction objective, jointly on verification and solution generation. Compared to standard verifiers, such generative verifiers (GenRM) can benefit from several advantages of LLMs: they integrate seamlessly with instruction tuning, enable chain-of-thought reasoning, and can utilize additional inference-time compute via majority voting for better verification. We demonstrate that when using Gemma-based verifiers on algorithmic and grade-school math reasoning tasks, GenRM outperforms discriminative verifiers and LLM-as-a-Judge, showing a 16-64% improvement in the percentage of problems solved with Best-of-N. Furthermore, we show that GenRM scales favorably across dataset size, model capacity, and inference-time compute.

arxiv情報

著者 Lunjun Zhang,Arian Hosseini,Hritik Bansal,Mehran Kazemi,Aviral Kumar,Rishabh Agarwal
発行日 2024-08-27 17:57:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク