Let’s Verify Step by Step

要約

近年、大規模な言語モデルは、複雑な複数ステップの推論を実行する能力が大幅に向上しています。
ただし、最先端のモデルでも依然として論理的な間違いが定期的に発生します。
より信頼性の高いモデルをトレーニングするには、最終結果に対するフィードバックを提供する結果監視、または中間推論ステップごとにフィードバックを提供するプロセス監視のいずれかを利用できます。
信頼できるモデルをトレーニングすることの重要性と人間によるフィードバックのコストが高いことを考慮すると、両方の方法を慎重に比較することが重要です。
最近の研究ではすでにこの比較が始まっていますが、まだ多くの疑問が残っています。
私たちは独自の調査を実施し、困難な MATH データセットからの問題を解決するモデルをトレーニングする場合、プロセスの監視が結果の監視よりも大幅に優れていることを発見しました。
私たちのプロセス教師ありモデルは、MATH テスト セットの代表的なサブセットの問題の 78% を解決します。
さらに、アクティブラーニングがプロセス監視の有効性を大幅に向上させることを示します。
関連研究をサポートするために、最高の報酬モデルをトレーニングするために使用される 800,000 ステップレベルのヒューマン フィードバック ラベルの完全なデータセットである PRM800K もリリースします。

要約(オリジナル)

In recent years, large language models have greatly improved in their ability to perform complex multi-step reasoning. However, even state-of-the-art models still regularly produce logical mistakes. To train more reliable models, we can turn either to outcome supervision, which provides feedback for a final result, or process supervision, which provides feedback for each intermediate reasoning step. Given the importance of training reliable models, and given the high cost of human feedback, it is important to carefully compare the both methods. Recent work has already begun this comparison, but many questions still remain. We conduct our own investigation, finding that process supervision significantly outperforms outcome supervision for training models to solve problems from the challenging MATH dataset. Our process-supervised model solves 78% of problems from a representative subset of the MATH test set. Additionally, we show that active learning significantly improves the efficacy of process supervision. To support related research, we also release PRM800K, the complete dataset of 800,000 step-level human feedback labels used to train our best reward model.

arxiv情報

著者 Hunter Lightman,Vineet Kosaraju,Yura Burda,Harri Edwards,Bowen Baker,Teddy Lee,Jan Leike,John Schulman,Ilya Sutskever,Karl Cobbe
発行日 2023-05-31 17:24:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク