要約
数学的推論は、その複雑で構造化された性質のため、言語モデルにとって大きな課題となる。本論文では、DeepSeek-Coder-Base-v1.5 7Bを、自然言語とコードデータとともに、Common Crawlから取得した120Bの数学関連トークンで事前学習したDeepSeekMath 7Bを紹介する。DeepSeekMath 7Bは、外部ツールキットや投票テクニックに依存することなく、競争レベルのMATHベンチマークで51.7%という素晴らしいスコアを達成し、Gemini-UltraやGPT-4のパフォーマンスレベルに近づきました。DeepSeekMath 7Bの64サンプルにわたる自己無撞着性は、MATHで60.9%を達成しました。DeepSeekMathの数学的推論能力は、2つの重要な要因によるものです:第一に、綿密に設計されたデータ選択パイプラインにより、一般に入手可能なウェブデータの大きな可能性を利用している。第二に、Proximal Policy Optimization (PPO)の変形であるGroup Relative Policy Optimization (GRPO)を導入し、PPOのメモリ使用量を最適化すると同時に、数学的推論能力を強化している。
要約(オリジナル)
Mathematical reasoning poses a significant challenge for language models due to its complex and structured nature. In this paper, we introduce DeepSeekMath 7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B math-related tokens sourced from Common Crawl, together with natural language and code data. DeepSeekMath 7B has achieved an impressive score of 51.7% on the competition-level MATH benchmark without relying on external toolkits and voting techniques, approaching the performance level of Gemini-Ultra and GPT-4. Self-consistency over 64 samples from DeepSeekMath 7B achieves 60.9% on MATH. The mathematical reasoning capability of DeepSeekMath is attributed to two key factors: First, we harness the significant potential of publicly available web data through a meticulously engineered data selection pipeline. Second, we introduce Group Relative Policy Optimization (GRPO), a variant of Proximal Policy Optimization (PPO), that enhances mathematical reasoning abilities while concurrently optimizing the memory usage of PPO.
arxiv情報
著者 | Zhihong Shao,Peiyi Wang,Qihao Zhu,Runxin Xu,Junxiao Song,Mingchuan Zhang,Y. K. Li,Y. Wu,Daya Guo |
発行日 | 2024-02-05 18:55:32+00:00 |
arxivサイト | arxiv_id(pdf) |