要約
言語モデルは数学の問題を解くときに定期的に間違いを犯すため、推論プロセスにおけるエラーの自動識別は、拡張可能な監視にとってますます重要になります。
この論文では、数学的推論の誤ったステップを特定する能力を測定するための ProcessBench を紹介します。
これは 3,400 のテスト ケースで構成されており、主に競技レベルおよびオリンピック レベルの数学の問題に焦点を当てています。
各テスト ケースには、人間の専門家によって注釈が付けられたエラー位置を含む段階的な解決策が含まれています。
モデルは、エラーを含む最初のステップを特定するか、すべてのステップが正しいと結論付ける必要があります。
私たちは、プロセス報酬モデル (PRM) と批評家モデルという 2 種類のモデルを使用して、ProcessBench で広範な評価を実施します。後者については、一般的な言語モデルに各ソリューションを段階的に批評するよう促します。
(1) 既存の PRM は通常、GSM8K および MATH を超える、より困難な数学問題に一般化できません。
これらは、批評家モデル (つまり、プロンプト付き一般言語モデル) と、PRM800K データセットで直接微調整された独自のトレーニング済み PRM の両方を下回っています。
(2) 最も優れたオープンソース モデルである QwQ-32B-Preview は、推論に特化した o1-mini にはまだ及ばないものの、独自モデル GPT-4o に匹敵する批評能力を実証しました。
私たちは、ProcessBench が推論プロセスの評価における将来の研究を促進し、言語モデルのスケーラブルな監視への道を開くことを願っています。
要約(オリジナル)
As language models regularly make mistakes when solving math problems, automated identification of errors in the reasoning process becomes increasingly significant for their scalable oversight. In this paper, we introduce ProcessBench for measuring the ability to identify erroneous steps in mathematical reasoning. It consists of 3,400 test cases, primarily focused on competition- and Olympiad-level math problems. Each test case contains a step-by-step solution with error location annotated by human experts. Models are required to identify the earliest step that contains an error, or conclude that all steps are correct. We conduct extensive evaluation on ProcessBench, involving two types of models: process reward models (PRMs) and critic models, where for the latter we prompt general language models to critique each solution step by step. We draw two main observations: (1) Existing PRMs typically fail to generalize to more challenging math problems beyond GSM8K and MATH. They underperform both critic models (i.e., prompted general language models) and our own trained PRM that is straightforwardly fine-tuned on the PRM800K dataset. (2) The best open-source model, QwQ-32B-Preview, has demonstrated the critique capability competitive with the proprietary model GPT-4o, despite that it still lags behind the reasoning-specialized o1-mini. We hope ProcessBench can foster future research in reasoning process assessment, paving the way toward scalable oversight of language models.
arxiv情報
著者 | Chujie Zheng,Zhenru Zhang,Beichen Zhang,Runji Lin,Keming Lu,Bowen Yu,Dayiheng Liu,Jingren Zhou,Junyang Lin |
発行日 | 2024-12-10 08:10:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google