Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale

要約

大規模な言語モデルの事前トレーニングは、従来、人間の専門家に依存して、コーパスの品質を改善するためにヒューリスティックを作成するために依存しており、これまでに開発された多くのルールが生まれました。
ただし、これらのルールには、個々の例のユニークな特性に効果的に対処する柔軟性がありません。
一方、すべての例にカスタマイズされたルールを適用することは、人間の専門家にとっては非現実的です。
この論文では、わずか0.3bパラメーターを持つ小さな言語モデルでさえ、人間の専門家に匹敵するかなりのデータ洗練機能を示すことができることを実証します。
データの改良をプログラミングタスクとして扱う新しいフレームワークであるすべての例（Prox）を導入し、個々の例ごとの個々の例について、文字列正規化などの微粒操作を生成および実行することにより、モデルがコーパスを改良できるようにします。
実験結果は、プロックスキュレーションデータで事前に訓練されたモデルが、さまざまな下流のベンチマークで他の選択方法によってフィルタリングされた元のデータまたは他の選択方法によってフィルタリングされたデータよりも優れていることを示しています。
その有効性は、C4、Redpajama-V2、FineWeb、FineWeb-Edu、DCLMなど、さまざまなモデルサイズと事前トレーニングコーパスに及びます。
さらに、プロックスは、ドメイン固有の継続的なトレーニングで有意な可能性を示します。ドメイン固有のデザインなしでは、プロックスが人間が作成したルールベースの方法を上回るOpenWebMathで訓練されたモデルは、Mistral-7Bより7.6％、14.6％で平均精度を改善します。
Llama-2-7BおよびCodellama-7Bの20.3％の場合、すべて10Bトークン以内のLLEMMA-7Bなどのモデルに匹敵する200bトークンで訓練されています。
さらなる分析では、プロックスがトレーニングフロップを大幅に節約し、効率的なLLMプリトレーニングのための有望なパスを提供することを強調しています。
私たちは、500Bを超えるコーパス、モデルを備えたオープンソーシングプロックス、再現可能な研究と将来のイノベーションのためのすべてのトレーニングと実装の詳細を共有しています。
コード：https：//github.com/gair-nlp/prox

要約(オリジナル)

Large language model pre-training has traditionally relied on human experts to craft heuristics for improving the corpora quality, resulting in numerous rules developed to date. However, these rules lack the flexibility to address the unique characteristics of individual example effectively. Meanwhile, applying tailored rules to every example is impractical for human experts. In this paper, we demonstrate that even small language models, with as few as 0.3B parameters, can exhibit substantial data refining capabilities comparable to those of human experts. We introduce Programming Every Example (ProX), a novel framework that treats data refinement as a programming task, enabling models to refine corpora by generating and executing fine-grained operations, such as string normalization, for each individual example at scale. Experimental results show that models pre-trained on ProX-curated data outperform either original data or data filtered by other selection methods by more than 2% across various downstream benchmarks. Its effectiveness spans various model sizes and pre-training corpora, including C4, RedPajama-V2, FineWeb, FineWeb-Edu, and DCLM. Furthermore, ProX exhibits significant potential in domain-specific continual pre-training: without domain specific design, models trained on OpenWebMath refined by ProX outperform human-crafted rule-based methods, improving average accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B trained on 200B tokens. Further analysis highlights that ProX significantly saves training FLOPs, offering a promising path for efficient LLM pre-training. We are open-sourcing ProX with >500B corpus, models, and sharing all training and implementation details for reproducible research and future innovation. Code: https://github.com/GAIR-NLP/ProX

arxiv情報

著者	Fan Zhou,Zengzhi Wang,Qian Liu,Junlong Li,Pengfei Liu
発行日	2025-02-14 16:44:08+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー