RedStone: Curating General, Code, Math, and QA Data for Large Language Models

要約

高品質で細心の注意を払って厳選されたデータセットで大規模言語モデル (LLM) を事前トレーニングすることは、パフォーマンスと一般化機能を強化するために重要であると広く認識されています。
この研究では、LLM を事前トレーニングするための包括的かつ柔軟なリソースとしての Common Crawl の未開発の可能性を調査し、汎用言語理解と特殊なドメイン知識の両方に取り組みます。
RedStone は、Common Crawl からデータを抽出して処理するように設計された革新的でスケーラブルなパイプラインで、広範で多様な事前トレーニング データセットの作成を容易にします。
多くの場合、高価なキュレーションとドメイン固有の専門知識が必要となる従来のデータセットとは異なり、RedStone は幅広い Common Crawl を活用して、幅広いドメインに合わせてカスタマイズされたデータセットを提供します。
この研究では、一般的な言語理解、コード、数学、質問応答タスクなど、複数の分野にわたる事前トレーニング データセットを構築することで、その機能を実証します。
RedStone の柔軟性により、他の特殊なドメインへの適応が容易になり、貴重なドメイン固有のデータセットを作成する障壁が大幅に低くなります。
私たちの調査結果は、Common Crawl が RedStone のような効果的なパイプラインを通じて活用されると、事前トレーニング データの豊富で再生可能なソースとして機能し、LLM でのドメイン適応と知識発見のための新しい道を開くことができることを示しています。
この研究はまた、革新的なデータ取得戦略の重要性を強調し、LLM の継続的な進化における強力なリソースとしての Web スケール データの役割を強調しています。
RedStone のコードとデータのサンプルは、\url{https://aka.ms/redstone} で公開されます。

要約(オリジナル)

Pre-training Large Language Models (LLMs) on high-quality, meticulously curated datasets is widely recognized as critical for enhancing their performance and generalization capabilities. This study explores the untapped potential of Common Crawl as a comprehensive and flexible resource for pre-training LLMs, addressing both general-purpose language understanding and specialized domain knowledge. We introduce RedStone, an innovative and scalable pipeline engineered to extract and process data from Common Crawl, facilitating the creation of extensive and varied pre-training datasets. Unlike traditional datasets, which often require expensive curation and domain-specific expertise, RedStone leverages the breadth of Common Crawl to deliver datasets tailored to a wide array of domains. In this work, we exemplify its capability by constructing pre-training datasets across multiple fields, including general language understanding, code, mathematics, and question-answering tasks. The flexibility of RedStone allows for easy adaptation to other specialized domains, significantly lowering the barrier to creating valuable domain-specific datasets. Our findings demonstrate that Common Crawl, when harnessed through effective pipelines like RedStone, can serve as a rich, renewable source of pre-training data, unlocking new avenues for domain adaptation and knowledge discovery in LLMs. This work also underscores the importance of innovative data acquisition strategies and highlights the role of web-scale data as a powerful resource in the continued evolution of LLMs. RedStone code and data samples will be publicly available at \url{https://aka.ms/redstone}.

arxiv情報

著者 Yaoyao Chang,Lei Cui,Li Dong,Shaohan Huang,Yangyu Huang,Yupan Huang,Scarlett Li,Tengchao Lv,Shuming Ma,Qinzheng Sun,Wenhui Wang,Furu Wei,Ying Xin,Mao Yang,Qiufeng Yin,Xingxing Zhang
発行日 2024-12-04 15:27:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク