DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

要約

数学的推論は、その複雑で構造的な性質により、言語モデルに重大な課題をもたらします。
このペーパーでは、自然言語およびコード データとともに、Common Crawl から供給された 120B の数学関連トークンを使用して DeepSeek-Coder-Base-v1.5 7B の事前トレーニングを続ける DeepSeekMath 7B を紹介します。
DeepSeekMath 7B は、外部ツールキットや投票テクニックに依存せずに、競技レベルの MATH ベンチマークで 51.7% という驚異的なスコアを達成し、Gemini-Ultra や GPT-4 のパフォーマンス レベルに近づきました。
DeepSeekMath 7B の 64 サンプルにわたる自己一貫性は、MATH で 60.9% を達成しました。
DeepSeekMath の数学的推論機能は 2 つの重要な要素によるものです。1 つ目は、細心の注意を払って設計されたデータ選択パイプラインを通じて、公開されている Web データの大きな可能性を活用します。
2 番目に、近接ポリシー最適化 (PPO) の一種であるグループ相対ポリシー最適化 (GRPO) を導入します。これは、PPO のメモリ使用量を同時に最適化しながら、数学的推論能力を強化します。

要約(オリジナル)

Mathematical reasoning poses a significant challenge for language models due to its complex and structured nature. In this paper, we introduce DeepSeekMath 7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B math-related tokens sourced from Common Crawl, together with natural language and code data. DeepSeekMath 7B has achieved an impressive score of 51.7% on the competition-level MATH benchmark without relying on external toolkits and voting techniques, approaching the performance level of Gemini-Ultra and GPT-4. Self-consistency over 64 samples from DeepSeekMath 7B achieves 60.9% on MATH. The mathematical reasoning capability of DeepSeekMath is attributed to two key factors: First, we harness the significant potential of publicly available web data through a meticulously engineered data selection pipeline. Second, we introduce Group Relative Policy Optimization (GRPO), a variant of Proximal Policy Optimization (PPO), that enhances mathematical reasoning abilities while concurrently optimizing the memory usage of PPO.

arxiv情報

著者 Zhihong Shao,Peiyi Wang,Qihao Zhu,Runxin Xu,Junxiao Song,Mingchuan Zhang,Y. K. Li,Y. Wu,Daya Guo
発行日 2024-02-06 18:39:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク