CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

要約

トレーニング前のデータセットは通常、Webコンテンツから収集され、固有のドメイン部門がありません。
たとえば、Common Crawlのような広く使用されているデータセットには明示的なドメインラベルは含まれていませんが、パイルは労働集約型のようなラベル付きデータセットを手動でキュレーションすることです。
その結果、トレーニング前のパフォーマンスにとって大きな利点にもかかわらず、最適なトレーニング前のデータ混合物を特定することは依然として困難な問題です。
これらの課題に対処するために、クラスタリングベースの反復データ混合ブートストラップ(CRIMB)を提案します。これは、トレーニング前の設定でデータの混合を発見、評価、洗練する自動フレームワークです。
具体的には、セマンティックスペースに大規模なデータセットを埋め込んだり、クラスターしたりしてから、小さなプロキシモデルと予測因子を使用して最適な混合物を繰り返し検索します。
この混合物で400Bのトークンで継続的にトレーニングされると、1Bモデルは最先端のLLAMA-3.2-1Bを2.0%超えています。
さらに、特定のドメイン(たとえば、社会科学)に最適化すると、ランダムサンプリングよりも5%の改善が得られることがわかります。
最後に、調査の遊び場として20個のクラスターを備えたフィルター処理された1.2兆桁のコーパスであるClimblabを紹介します。Crimbmixは、等しいトークン予算の下で優れたパフォーマンスを提供する効率的な事前トレーニング用に設計されたコンパクトでありながら強力な4,000億トークンのデータセットです。
最終的なデータ混合物を分析し、最適なデータ混合の特性を解明します。
データはhttps://research.nvidia.com/labs/lpr/climb/で入手できます。

要約(オリジナル)

Pre-training datasets are typically collected from web content and lack inherent domain divisions. For instance, widely used datasets like Common Crawl do not include explicit domain labels, while manually curating labeled datasets such as The Pile is labor-intensive. Consequently, identifying an optimal pre-training data mixture remains a challenging problem, despite its significant benefits for pre-training performance. To address these challenges, we propose CLustering-based Iterative Data Mixture Bootstrapping (CLIMB), an automated framework that discovers, evaluates, and refines data mixtures in a pre-training setting. Specifically, CLIMB embeds and clusters large-scale datasets in a semantic space and then iteratively searches for optimal mixtures using a smaller proxy model and a predictor. When continuously trained on 400B tokens with this mixture, our 1B model exceeds the state-of-the-art Llama-3.2-1B by 2.0%. Moreover, we observe that optimizing for a specific domain (e.g., Social Sciences) yields a 5% improvement over random sampling. Finally, we introduce ClimbLab, a filtered 1.2-trillion-token corpus with 20 clusters as a research playground, and ClimbMix, a compact yet powerful 400-billion-token dataset designed for efficient pre-training that delivers superior performance under an equal token budget. We analyze the final data mixture, elucidating the characteristics of an optimal data mixture. Our data is available at: https://research.nvidia.com/labs/lpr/climb/

arxiv情報

著者 Shizhe Diao,Yu Yang,Yonggan Fu,Xin Dong,Dan Su,Markus Kliegl,Zijia Chen,Peter Belcak,Yoshi Suhara,Hongxu Yin,Mostofa Patwary,Yingyan,Lin,Jan Kautz,Pavlo Molchanov
発行日 2025-04-17 17:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク