Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch

要約

高品質のデータを利用できることは、LLM の推論能力を向上させる上で最も重要な要素の 1 つです。
既存の研究では、シード質問または知識ベースからさらに多くの指導データを作成することの有効性が実証されています。
最近の研究では、強力なモデル (GPT-4 など) からのデータ合成を継続的にスケールアップすると、推論パフォーマンスをさらに引き出すことができることが示されています。
オープンソース コミュニティには有望ではありますが、大規模な高品質データや、手頃なコストでスケーラブルなデータ合成方法がまだ不足しています。
これに対処するために、「小規模」(7B など)のオープンソース モデルを利用して、複雑な拡張制約のあるシード データを必要とせずに質問を最初から生成する、スケーラブルで新しいデータ合成手法である ScaleQuest を紹介します。
効率的な ScaleQuest を使用して、100 万の問題と解決策のペアで構成される数学的推論データセットを自動的に構築しました。これは、既存のオープンソース データセットよりも効果的です。
MATH で 29.2% ~ 46.4% の向上を達成することで、主流のオープンソース モデル (Mistral、Llama3、DeepSeekMath、Qwen2-Math) のパフォーマンスを全般的に向上させることができます。
特に、当社のデータセットを使用して Qwen2-Math-7B-Base モデルを微調整するだけで、クローズドソース データの強力で適切に調整されたモデルである Qwen2-Math-7B-Instruct や、GPT-4 などの独自モデルをも超えることができます。
-ターボとクロード-3.5ソネット。

要約(オリジナル)

The availability of high-quality data is one of the most important factors in improving the reasoning capability of LLMs. Existing works have demonstrated the effectiveness of creating more instruction data from seed questions or knowledge bases. Recent research indicates that continually scaling up data synthesis from strong models (e.g., GPT-4) can further elicit reasoning performance. Though promising, the open-sourced community still lacks high-quality data at scale and scalable data synthesis methods with affordable costs. To address this, we introduce ScaleQuest, a scalable and novel data synthesis method that utilizes ‘small-size’ (e.g., 7B) open-source models to generate questions from scratch without the need for seed data with complex augmentation constraints. With the efficient ScaleQuest, we automatically constructed a mathematical reasoning dataset consisting of 1 million problem-solution pairs, which are more effective than existing open-sourced datasets. It can universally increase the performance of mainstream open-source models (i.e., Mistral, Llama3, DeepSeekMath, and Qwen2-Math) by achieving 29.2% to 46.4% gains on MATH. Notably, simply fine-tuning the Qwen2-Math-7B-Base model with our dataset can even surpass Qwen2-Math-7B-Instruct, a strong and well-aligned model on closed-source data, and proprietary models such as GPT-4-Turbo and Claude-3.5 Sonnet.

arxiv情報

著者 Yuyang Ding,Xinyu Shi,Xiaobo Liang,Juntao Li,Qiaoming Zhu,Min Zhang
発行日 2024-10-24 12:42:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク