MAmmoTH2: Scaling Instructions from the Web

要約

命令チューニングは大規模言語モデル(LLM)の推論能力を向上させる。ほとんどの命令チューニングデータは、人間のクラウドソーシングやGPT-4蒸留から得られている。我々は、LLMの推論を強化するために、事前学習用Webコーパスから1,000万件の自然に存在する命令データを効率的に採取するパラダイムを提案する。我々のアプローチでは、(1)関連文書を想起し、(2)命令と応答のペアを抽出し、(3)オープンソースのLLMを用いて抽出されたペアを微調整する。このデータセットでベースLLMを微調整し、MAmmoTH2モデルを構築する。特に、MAmmoTH2-7B (Mistral)の性能は、ドメイン内データで訓練することなく、MATHで11%から34%に、GSM8Kで36%から67%に向上した。さらに、MAmmoTH2を公開命令チューニングデータセットで訓練することで、MAmmoTH2-Plusが生成され、いくつかの推論およびチャットボットベンチマークで最先端の性能を達成する。我々の研究は、コストのかかる人間によるアノテーションやGPT-4蒸留を行うことなく、大規模で高品質な命令データを採取する方法を示し、より良い命令チューニングデータを構築するための新しいパラダイムを提供する。

要約(オリジナル)

Instruction tuning improves the reasoning abilities of large language models (LLMs), with data quality and scalability being the crucial factors. Most instruction tuning data come from human crowd-sourcing or GPT-4 distillation. We propose a paradigm to efficiently harvest 10 million naturally existing instruction data from the pre-training web corpus to enhance LLM reasoning. Our approach involves (1) recalling relevant documents, (2) extracting instruction-response pairs, and (3) refining the extracted pairs using open-source LLMs. Fine-tuning base LLMs on this dataset, we build MAmmoTH2 models, which significantly boost performance on reasoning benchmarks. Notably, MAmmoTH2-7B’s (Mistral) performance increases from 11% to 34% on MATH and from 36% to 67% on GSM8K without training on any in-domain data. Further training MAmmoTH2 on public instruction tuning datasets yields MAmmoTH2-Plus, achieving state-of-the-art performance on several reasoning and chatbot benchmarks. Our work demonstrates how to harvest large-scale, high-quality instruction data without costly human annotation or GPT-4 distillation, providing a new paradigm for building better instruction tuning data.

arxiv情報

著者 Xiang Yue,Tuney Zheng,Ge Zhang,Wenhu Chen
発行日 2024-05-06 15:11:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク