要約
プロセス報酬モデル(PRM)は、推論時間計算の増加を活用することにより、大規模な言語モデル(LLM)の数学的推論の強化に効果的であることが証明されています。
ただし、それらは主に数学データについて訓練されており、非数学的なドメインへの一般化可能性は厳密に研究されていません。
これに応じて、この作業は最初に、現在のPRMが他のドメインでパフォーマンスが低いことを示しています。
この制限に対処するために、新しいデータ生成と注釈法を使用して生成された合成推論データで訓練されたマルチドメインPRMであるVersapRMを紹介します。
VersapRMは、多様なドメイン全体で一貫したパフォーマンスの向上を達成します。
たとえば、法律のMMLU-Proカテゴリでは、加重多数派の投票を介してVersapRMが、多数派の投票ベースラインで7.9%のパフォーマンス増加を達成し、QWEN2.5-MATH-PRMの1.3%を上回ります。
さらに、VersaPRMのすべてのデータ、コード、モデルをオープンソースすることにより、コミュニティに貢献します。
要約(オリジナル)
Process Reward Models (PRMs) have proven effective at enhancing mathematical reasoning for Large Language Models (LLMs) by leveraging increased inference-time computation. However, they are predominantly trained on mathematical data and their generalizability to non-mathematical domains has not been rigorously studied. In response, this work first shows that current PRMs have poor performance in other domains. To address this limitation, we introduce VersaPRM, a multi-domain PRM trained on synthetic reasoning data generated using our novel data generation and annotation method. VersaPRM achieves consistent performance gains across diverse domains. For instance, in the MMLU-Pro category of Law, VersaPRM via weighted majority voting, achieves a 7.9% performance gain over the majority voting baseline — surpassing Qwen2.5-Math-PRM’s gain of 1.3%. We further contribute to the community by open-sourcing all data, code and models for VersaPRM.
arxiv情報
著者 | Thomas Zeng,Shuibai Zhang,Shutong Wu,Christian Classen,Daewon Chae,Ethan Ewer,Minjae Lee,Heeju Kim,Wonjun Kang,Jackson Kunde,Ying Fan,Jungtaek Kim,Hyung Il Koo,Kannan Ramchandran,Dimitris Papailiopoulos,Kangwook Lee |
発行日 | 2025-02-10 18:03:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google