要約
データの品質は、大規模な言語モデル(LLMS)の急速な発展により、モデルのパフォーマンスを向上させる重要な要因となっています。
モデル駆動型のデータフィルタリングは、高品質のデータを取得するための主要なアプローチになりつつあります。
ただし、まだ2つの主な課題に直面しています。(1)効率的なデータ検証戦略がないため、データの品質に関するタイムリーなフィードバックを提供することは困難です。
(2)トレーニング分類器のための種子データの選択には明確な基準がなく、人間の専門知識に大きく依存し、ある程度の主観性を導入しています。
最初の課題に対処するために、最小限の計算コストでLLMトレーニングに対するデータの影響の迅速な評価を可能にする効率的な検証戦略を紹介します。
2番目の課題に取り組むために、高品質の種子データがLLMトレーニングに有益であるという仮定に基づいて構築し、提案された検証戦略を統合することにより、正と負のサンプルの選択を最適化し、効率的なデータフィルタリングパイプラインを提案します。
このパイプラインは、フィルタリング効率、分類器の品質、堅牢性を改善するだけでなく、実験コストと推論コストを大幅に削減します。
さらに、高品質のデータを効率的にフィルタリングするために、FastTextに基づいて軽量分類器を採用し、フィルタリングパイプラインを2つの広く使用されている作業、FineWeb、および中国のファインウェブデータセットに正常に適用し、高品質のウルトラファインウェブデータセットを作成します。
Ultra-FineWebには、約1兆個の英語トークンと1200億個の中国のトークンが含まれています。
経験的な結果は、超微細ウェブで訓練されたLLMSが複数のベンチマークタスクにわたって大幅なパフォーマンスの改善を示し、データの品質とトレーニング効率の両方を高めるパイプラインの有効性を検証することを示しています。
要約(オリジナル)
Data quality has become a key factor in enhancing model performance with the rapid development of large language models (LLMs). Model-driven data filtering has increasingly become a primary approach for acquiring high-quality data. However, it still faces two main challenges: (1) the lack of an efficient data verification strategy makes it difficult to provide timely feedback on data quality; and (2) the selection of seed data for training classifiers lacks clear criteria and relies heavily on human expertise, introducing a degree of subjectivity. To address the first challenge, we introduce an efficient verification strategy that enables rapid evaluation of the impact of data on LLM training with minimal computational cost. To tackle the second challenge, we build upon the assumption that high-quality seed data is beneficial for LLM training, and by integrating the proposed verification strategy, we optimize the selection of positive and negative samples and propose an efficient data filtering pipeline. This pipeline not only improves filtering efficiency, classifier quality, and robustness, but also significantly reduces experimental and inference costs. In addition, to efficiently filter high-quality data, we employ a lightweight classifier based on fastText, and successfully apply the filtering pipeline to two widely-used pre-training corpora, FineWeb and Chinese FineWeb datasets, resulting in the creation of the higher-quality Ultra-FineWeb dataset. Ultra-FineWeb contains approximately 1 trillion English tokens and 120 billion Chinese tokens. Empirical results demonstrate that the LLMs trained on Ultra-FineWeb exhibit significant performance improvements across multiple benchmark tasks, validating the effectiveness of our pipeline in enhancing both data quality and training efficiency.
arxiv情報
著者 | Yudong Wang,Zixuan Fu,Jie Cai,Peijun Tang,Hongya Lyu,Yewei Fang,Zhi Zheng,Jie Zhou,Guoyang Zeng,Chaojun Xiao,Xu Han,Zhiyuan Liu |
発行日 | 2025-05-08 17:15:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google