Common 7B Language Models Already Possess Strong Math Capabilities

要約

以前は、数学的機能は非常に大規模な場合にのみ共通言語モデルに現れるか、広範な数学関連の事前トレーニングが必要であると考えられていました。
この論文は、共通の事前トレーニングを備えた LLaMA-2 7B モデルがすでに強力な数学的能力を示していることを示しています。これは、256 個のランダムな応答から最良の応答を選択した場合に、GSM8K ベンチマークおよび MATH ベンチマークでそれぞれ 97.7% および 72.0% という優れた精度によって証明されています。
世代。
現在の基本モデルの主な問題は、その固有の数学的機能を一貫して引き出すことが難しいことです。
特に、最初の答えの精度は、GSM8K ベンチマークと MATH ベンチマークでそれぞれ 49.5% と 7.9% に低下します。
SFT データをスケールアップするだけで、正解を生成する信頼性が大幅に向上することがわかりました。
ただし、大規模なスケーリングの可能性は、公開されている数学の質問が不足しているため制限されています。
この制限を克服するために、私たちは合成データを採用しています。これは実際のデータとほぼ同じ効果があり、約 100 万サンプルまでスケールアップしても明確な飽和を示さないことが証明されています。
この単純なアプローチにより、LLaMA-2 7B モデルを使用した GSM8K で 82.6%、MATH で 40.6% の精度が達成され、以前のモデルをそれぞれ 14.2% と 20.8% 上回りました。
また、さまざまな推論の複雑さやエラーの種類にわたるスケーリング動作に関する洞察も提供します。

要約(オリジナル)

Mathematical capabilities were previously believed to emerge in common language models only at a very large scale or require extensive math-related pre-training. This paper shows that the LLaMA-2 7B model with common pre-training already exhibits strong mathematical abilities, as evidenced by its impressive accuracy of 97.7% and 72.0% on the GSM8K and MATH benchmarks, respectively, when selecting the best response from 256 random generations. The primary issue with the current base model is the difficulty in consistently eliciting its inherent mathematical capabilities. Notably, the accuracy for the first answer drops to 49.5% and 7.9% on the GSM8K and MATH benchmarks, respectively. We find that simply scaling up the SFT data can significantly enhance the reliability of generating correct answers. However, the potential for extensive scaling is constrained by the scarcity of publicly available math questions. To overcome this limitation, we employ synthetic data, which proves to be nearly as effective as real data and shows no clear saturation when scaled up to approximately one million samples. This straightforward approach achieves an accuracy of 82.6% on GSM8K and 40.6% on MATH using LLaMA-2 7B models, surpassing previous models by 14.2% and 20.8%, respectively. We also provide insights into scaling behaviors across different reasoning complexities and error types.

arxiv情報

著者 Chen Li,Weiqi Wang,Jingcheng Hu,Yixuan Wei,Nanning Zheng,Han Hu,Zheng Zhang,Houwen Peng
発行日 2024-03-07 18:00:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク