OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset

要約

最近の研究では、大規模言語モデル (LLM) のトレーニング、特に対象を絞ったスキルの習得において、合成的に生成されたデータセットの計り知れない可能性が示されています。
MetaMathQA (Yu et al., 2024) や MAmmoTH (Yue et al., 2024) などの現在の大規模な数学命令チューニング データセットは、商業的に制限されたライセンスを持つクローズドソース LLM からの出力を使用して構築されています。
これらのデータ生成パイプラインでのオープンソース LLM の使用を制限する主な理由は、GPT-4 などの最高のクローズドソース LLM と最高のオープンソース LLM の数学的スキルの間に大きなギャップがあることです。
オープンソース LLM の最近の進歩、私たちが提案した新規性を促すプロンプト、およびいくつかのブルートフォース スケーリングに基づいて、180 万個の問題と解決策のペアを含む数学命令調整データセットである OpenMathInstruct-1 を構築します。
このデータセットは、最近リリースされ、許可されたライセンスを持つ Mixtral モデルを使用して、2 つの人気のある数学推論ベンチマークである GSM8K と MATH 用のコード インタプリタ ソリューションを合成することによって構築されます。
OpenMathInstruct-1 のサブセットでトレーニングされた最高のモデル OpenMath-CodeLlama-70B は、GSM8K で 84.6%、MATH で 50.7% のスコアを達成しており、gpt で抽出された最高のモデルと競合します。
私たちはコード、モデル、OpenMathInstruct-1 データセットを商業的に許容されたライセンスの下でリリースしています。

要約(オリジナル)

Recent work has shown the immense potential of synthetically generated datasets for training large language models (LLMs), especially for acquiring targeted skills. Current large-scale math instruction tuning datasets such as MetaMathQA (Yu et al., 2024) and MAmmoTH (Yue et al., 2024) are constructed using outputs from closed-source LLMs with commercially restrictive licenses. A key reason limiting the use of open-source LLMs in these data generation pipelines has been the wide gap between the mathematical skills of the best closed-source LLMs, such as GPT-4, and the best open-source LLMs. Building on the recent progress in open-source LLMs, our proposed prompting novelty, and some brute-force scaling, we construct OpenMathInstruct-1, a math instruction tuning dataset with 1.8M problem-solution pairs. The dataset is constructed by synthesizing code-interpreter solutions for GSM8K and MATH, two popular math reasoning benchmarks, using the recently released and permissively licensed Mixtral model. Our best model, OpenMath-CodeLlama-70B, trained on a subset of OpenMathInstruct-1, achieves a score of 84.6% on GSM8K and 50.7% on MATH, which is competitive with the best gpt-distilled models. We release our code, models, and the OpenMathInstruct-1 dataset under a commercially permissive license.

arxiv情報

著者 Shubham Toshniwal,Ivan Moshkov,Sean Narenthiran,Daria Gitman,Fei Jia,Igor Gitman
発行日 2024-02-15 18:26:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク