要約
この論文では、複雑な数学問題の解決に優れたフロンティア数学モデルのスイートである AceMath と、生成された解を評価して正しい解を確実に特定できる非常に効果的な報酬モデルを紹介します。
命令調整された数学モデルを開発するために、最初に一般的なドメイン全体で競争力のあるパフォーマンスを達成し、次に注意深く厳選されたプロンプトと合成的に生成された応答のセットを使用して数学ドメインを対象とした微調整を行う教師あり微調整 (SFT) プロセスを提案します。
。
結果として得られるモデル AceMath-72B-Instruct は、Qwen2.5-Math-72B-Instruct、GPT-4o、および Claude-3.5 Sonnet を大幅に上回ります。
数学に特化した報酬モデルを開発するには、まず AceMath-RewardBench を構築します。これは、さまざまな問題や難易度にわたって数学の報酬モデルを評価するための包括的で堅牢なベンチマークです。
その後、数学的報酬モデルを構築するための体系的なアプローチを紹介します。
結果として得られたモデル AceMath-72B-RM は、常に最先端の報酬モデルを上回っています。
さらに、AceMath-72B-Instruct と AceMath-72B-RM を組み合わせると、数的推論ベンチマーク全体で最高の平均 rm@8 スコアを達成します。
モデルの重み、トレーニング データ、評価ベンチマークは https://research.nvidia.com/labs/adlr/acemath でリリースされます。
要約(オリジナル)
In this paper, we introduce AceMath, a suite of frontier math models that excel in solving complex math problems, along with highly effective reward models capable of evaluating generated solutions and reliably identifying the correct ones. To develop the instruction-tuned math models, we propose a supervised fine-tuning (SFT) process that first achieves competitive performance across general domains, followed by targeted fine-tuning for the math domain using a carefully curated set of prompts and synthetically generated responses. The resulting model, AceMath-72B-Instruct greatly outperforms Qwen2.5-Math-72B-Instruct, GPT-4o and Claude-3.5 Sonnet. To develop math-specialized reward model, we first construct AceMath-RewardBench, a comprehensive and robust benchmark for evaluating math reward models across diverse problems and difficulty levels. After that, we present a systematic approach to build our math reward models. The resulting model, AceMath-72B-RM, consistently outperforms state-of-the-art reward models. Furthermore, when combining AceMath-72B-Instruct with AceMath-72B-RM, we achieve the highest average rm@8 score across the math reasoning benchmarks. We will release model weights, training data, and evaluation benchmarks at: https://research.nvidia.com/labs/adlr/acemath
arxiv情報
著者 | Zihan Liu,Yang Chen,Mohammad Shoeybi,Bryan Catanzaro,Wei Ping |
発行日 | 2024-12-19 17:29:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google