要約
言語モデルは数学の問題を解決する際に定期的に間違いを犯すため、推論プロセスでのエラーの自動識別は、スケーラブルな監視のためにますます重要になります。
この論文では、数学的推論において誤ったステップを特定する能力を測定するためのProcessBenchを紹介します。
これは、主に競争とオリンピックレベルの数学の問題に焦点を当てた3,400のテストケースで構成されています。
各テストケースには、人間の専門家によって注釈されたエラー位置を備えた段階的なソリューションが含まれています。
モデルは、エラーを含む初期のステップを特定するか、すべてのステップが正しいと結論付ける必要があります。
プロセスベンチで広範な評価を実施します。プロセス報酬モデル(PRM)と批評家モデルの2種類のモデルを含みます。後者のために、一般的な言語モデルに各ソリューションを段階的に批評するように促します。
2つの主な観察結果を描きます。(1)既存のPRMSは通常、GSM8Kと数学を超えてより挑戦的な数学の問題に一般化することができません。
彼らは、批評家モデル(つまり、一般的な言語モデルを促した)と、PRM800Kデータセットで簡単に微調整された私たち自身の訓練されたPRMの両方のパフォーマンスを低下させます。
(2)最高のオープンソースモデルであるQWQ-32B-PREVIEWは、推論特有のO1-MINIの背後にまだ遅れているにもかかわらず、独自モデルGPT-4Oと競争力のある批評能力を実証しています。
ProcessBenchが推論プロセス評価の将来の研究を促進し、言語モデルのスケーラブルな監視への道を開くことができることを願っています。
要約(オリジナル)
As language models regularly make mistakes when solving math problems, automated identification of errors in the reasoning process becomes increasingly significant for their scalable oversight. In this paper, we introduce ProcessBench for measuring the ability to identify erroneous steps in mathematical reasoning. It consists of 3,400 test cases, primarily focused on competition- and Olympiad-level math problems. Each test case contains a step-by-step solution with error location annotated by human experts. Models are required to identify the earliest step that contains an error, or conclude that all steps are correct. We conduct extensive evaluation on ProcessBench, involving two types of models: process reward models (PRMs) and critic models, where for the latter we prompt general language models to critique each solution step by step. We draw two main observations: (1) Existing PRMs typically fail to generalize to more challenging math problems beyond GSM8K and MATH. They underperform both critic models (i.e., prompted general language models) and our own trained PRM that is straightforwardly fine-tuned on the PRM800K dataset. (2) The best open-source model, QwQ-32B-Preview, has demonstrated the critique capability competitive with the proprietary model GPT-4o, despite that it still lags behind the reasoning-specialized o1-mini. We hope ProcessBench can foster future research in reasoning process assessment, paving the way toward scalable oversight of language models.
arxiv情報
著者 | Chujie Zheng,Zhenru Zhang,Beichen Zhang,Runji Lin,Keming Lu,Bowen Yu,Dayiheng Liu,Jingren Zhou,Junyang Lin |
発行日 | 2025-05-26 14:03:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google