Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

要約

大規模な言語モデルの事前トレーニングは従来、コーパスの品質を向上させるためのヒューリスティックを作成する人間の専門家に依存しており、その結果、現在までに多数のルールが開発されてきました。
ただし、これらのルールには、個々の例の固有の特性に効果的に対処するための柔軟性が欠けています。
一方、カスタマイズされたルールをすべての例に適用することは、人間の専門家にとっては現実的ではありません。
この論文では、パラメータがわずか 0.3B の小さな言語モデルであっても、人間の専門家に匹敵する実質的なデータ洗練能力を発揮できることを実証します。
データの絞り込みをプログラミング タスクとして扱う新しいフレームワークである Programming Every Example (ProX) を紹介します。これにより、モデルは、個々のサンプルごとに大規模な文字列正規化などのきめ細かい操作を生成して実行することで、コーパスを絞り込むことができます。
実験結果は、ProX が厳選したデータで事前トレーニングされたモデルが、元のデータまたは他の選択方法でフィルターされたデータよりも、さまざまなダウンストリーム ベンチマーク全体で 2% 以上優れていることを示しています。
その有効性は、C4、RedPajama-V2、FineWeb など、さまざまなモデル サイズと事前トレーニング コーパスに及びます。
さらに、ProX は、ドメイン固有の継続的事前トレーニングで大きな可能性を示します。ドメイン固有の設計を行わなくても、ProX によって洗練された OpenWebMath でトレーニングされたモデルは、人が作成したルールベースの手法を上回り、平均精度が Mistral-7B より 7.6% 向上し、平均精度は 14.6% 向上しました。
Llama-2-7B では 20.3%、CodeLlama-7B では 20.3% であり、すべて 10B トークン以内であり、200B トークンでトレーニングされた Llemma-7B のようなモデルと同等です。
さらなる分析により、ProX がトレーニング FLOP を大幅に節約し、効率的な LLM 事前トレーニングへの有望な道を提供することが明らかになりました。私たちは、再現可能な研究と将来のイノベーションのために、100B を超えるコーパス、モデルを備えた ProX をオープンソース化し、すべてのトレーニングと実装の詳細を共有しています。
コード: https://github.com/GAIR-NLP/ProX

要約(オリジナル)

Large language model pre-training has traditionally relied on human experts to craft heuristics for improving the corpora quality, resulting in numerous rules developed to date. However, these rules lack the flexibility to address the unique characteristics of individual example effectively. Meanwhile, applying tailored rules to every example is impractical for human experts. In this paper, we demonstrate that even small language models, with as few as 0.3B parameters, can exhibit substantial data refining capabilities comparable to those of human experts. We introduce Programming Every Example (ProX), a novel framework that treats data refinement as a programming task, enabling models to refine corpora by generating and executing fine-grained operations, such as string normalization, for each individual example at scale. Experimental results show that models pre-trained on ProX-curated data outperform either original data or data filtered by other selection methods by more than 2% across various downstream benchmarks. Its effectiveness spans various model sizes and pre-training corpora, including C4, RedPajama-V2, and FineWeb. Furthermore, ProX exhibits significant potential in domain-specific continual pre-training: without domain specific design, models trained on OpenWebMath refined by ProX outperform human-crafted rule-based methods, improving average accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B trained on 200B tokens. Further analysis highlights that ProX significantly saves training FLOPs, offering a promising path for efficient LLM pre-training.We are open-sourcing ProX with >100B corpus, models, and sharing all training and implementation details for reproducible research and future innovation. Code: https://github.com/GAIR-NLP/ProX

arxiv情報

著者 Fan Zhou,Zengzhi Wang,Qian Liu,Junlong Li,Pengfei Liu
発行日 2024-09-25 17:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク