要約
教師なしマルチタスク事前トレーニングは、言語モデル (LM) の最近の成功の背後にある重要な方法です。
ただし、教師ありマルチタスク学習は、トレーニング後の段階での拡張がより一般化される傾向にあるため、依然として大きな可能性を秘めています。
この論文では、LM を事前トレーニングするための命令と応答のペアを使用して大規模な生のコーパスをスケーラブルに拡張するフレームワークである命令事前トレーニングを提案することで、教師ありマルチタスク事前トレーニングを検討します。
命令と応答のペアは、オープンソース モデルに基づいて構築された効率的な命令シンセサイザーによって生成されます。
私たちの実験では、40 以上のタスク カテゴリをカバーする 2 億の命令と応答のペアを合成し、命令事前トレーニングの有効性を検証しました。
ゼロからの事前トレーニングでは、命令事前トレーニングは、事前トレーニングされたベース モデルを一貫して強化するだけでなく、さらなる命令チューニングによるメリットも得ます。
継続的な事前トレーニングでは、命令事前トレーニングにより、Llama3-8B は Llama3-70B と同等か、さらにはそれを上回るパフォーマンスを得ることができます。
私たちのモデル、コード、データは https://github.com/microsoft/LMOps で入手できます。
要約(オリジナル)
Unsupervised multitask pre-training has been the critical method behind the recent success of language models (LMs). However, supervised multitask learning still holds significant promise, as scaling it in the post-training stage trends towards better generalization. In this paper, we explore supervised multitask pre-training by proposing Instruction Pre-Training, a framework that scalably augments massive raw corpora with instruction-response pairs to pre-train LMs. The instruction-response pairs are generated by an efficient instruction synthesizer built on open-source models. In our experiments, we synthesize 200M instruction-response pairs covering 40+ task categories to verify the effectiveness of Instruction Pre-Training. In pre-training from scratch, Instruction Pre-Training not only consistently enhances pre-trained base models but also benefits more from further instruction tuning. In continual pre-training, Instruction Pre-Training enables Llama3-8B to be comparable to or even outperform Llama3-70B. Our model, code, and data are available at https://github.com/microsoft/LMOps.
arxiv情報
著者 | Daixuan Cheng,Yuxian Gu,Shaohan Huang,Junyu Bi,Minlie Huang,Furu Wei |
発行日 | 2024-06-20 16:55:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google