DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

要約

数学的推論は、その複雑で構造化された性質のため、言語モデルにとって大きな課題となる。本論文では、DeepSeek-Coder-Base-v1.5 7Bを、自然言語とコードデータとともに、Common Crawlから取得した120Bの数学関連トークンで事前学習したDeepSeekMath 7Bを紹介する。DeepSeekMath 7Bは、外部ツールキットや投票テクニックに依存することなく、競争レベルのMATHベンチマークで51.7%という素晴らしいスコアを達成し、Gemini-UltraやGPT-4のパフォーマンスレベルに近づきました。DeepSeekMath 7Bの64サンプルにわたる自己無撞着性は、MATHで60.9%を達成しました。DeepSeekMathの数学的推論能力は、2つの重要な要因によるものです:第一に、綿密に設計されたデータ選択パイプラインにより、一般に入手可能なウェブデータの大きな可能性を利用している。第二に、Proximal Policy Optimization (PPO)の変形であるGroup Relative Policy Optimization (GRPO)を導入し、PPOのメモリ使用量を最適化すると同時に、数学的推論能力を強化している。

要約(オリジナル)

Mathematical reasoning poses a significant challenge for language models due to its complex and structured nature. In this paper, we introduce DeepSeekMath 7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B math-related tokens sourced from Common Crawl, together with natural language and code data. DeepSeekMath 7B has achieved an impressive score of 51.7% on the competition-level MATH benchmark without relying on external toolkits and voting techniques, approaching the performance level of Gemini-Ultra and GPT-4. Self-consistency over 64 samples from DeepSeekMath 7B achieves 60.9% on MATH. The mathematical reasoning capability of DeepSeekMath is attributed to two key factors: First, we harness the significant potential of publicly available web data through a meticulously engineered data selection pipeline. Second, we introduce Group Relative Policy Optimization (GRPO), a variant of Proximal Policy Optimization (PPO), that enhances mathematical reasoning abilities while concurrently optimizing the memory usage of PPO.

arxiv情報

著者 Zhihong Shao,Peiyi Wang,Qihao Zhu,Runxin Xu,Junxiao Song,Mingchuan Zhang,Y. K. Li,Y. Wu,Daya Guo
発行日 2024-02-05 18:55:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク