要約
数学的推論は、その複雑で構造的な性質により、言語モデルに重大な課題をもたらします。
このペーパーでは、自然言語およびコード データとともに、Common Crawl から供給された 120B の数学関連トークンを使用して DeepSeek-Coder-Base-v1.5 7B の事前トレーニングを続ける DeepSeekMath 7B を紹介します。
DeepSeekMath 7B は、外部ツールキットや投票テクニックに依存せずに、競技レベルの MATH ベンチマークで 51.7% という驚異的なスコアを達成し、Gemini-Ultra や GPT-4 のパフォーマンス レベルに近づきました。
DeepSeekMath 7B の 64 サンプルにわたる自己一貫性は、MATH で 60.9% を達成しました。
DeepSeekMath の数学的推論機能は 2 つの重要な要素によるものです。1 つ目は、細心の注意を払って設計されたデータ選択パイプラインを通じて、公開されている Web データの大きな可能性を活用します。
2 番目に、近接ポリシー最適化 (PPO) の一種であるグループ相対ポリシー最適化 (GRPO) を導入します。これは、PPO のメモリ使用量を同時に最適化しながら、数学的推論能力を強化します。
要約(オリジナル)
Mathematical reasoning poses a significant challenge for language models due to its complex and structured nature. In this paper, we introduce DeepSeekMath 7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B math-related tokens sourced from Common Crawl, together with natural language and code data. DeepSeekMath 7B has achieved an impressive score of 51.7% on the competition-level MATH benchmark without relying on external toolkits and voting techniques, approaching the performance level of Gemini-Ultra and GPT-4. Self-consistency over 64 samples from DeepSeekMath 7B achieves 60.9% on MATH. The mathematical reasoning capability of DeepSeekMath is attributed to two key factors: First, we harness the significant potential of publicly available web data through a meticulously engineered data selection pipeline. Second, we introduce Group Relative Policy Optimization (GRPO), a variant of Proximal Policy Optimization (PPO), that enhances mathematical reasoning abilities while concurrently optimizing the memory usage of PPO.
arxiv情報
著者 | Zhihong Shao,Peiyi Wang,Qihao Zhu,Runxin Xu,Junxiao Song,Mingchuan Zhang,Y. K. Li,Y. Wu,Daya Guo |
発行日 | 2024-02-06 18:39:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google