QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining

要約

品質と多様性は、大規模な言語モデル(LLM)のトレーニングデータの2つの重要なメトリックであり、パフォーマンスにプラスの影響を与えます。
既存の研究は、多くの場合、これらのメトリックを個別に最適化します。通常、最初に品質フィルタリングを適用し、次にデータの割合を調整することにより。
ただし、これらのアプローチは、品質と多様性の間の固有のトレードオフを見落としているため、共同考慮事項が必要です。
固定トレーニングクォータを考えると、各データポイントの品質とデータセット全体に対するその補完的な効果の両方を評価することが不可欠です。
このホワイトペーパーでは、Quadmixと呼ばれる統一されたデータ選択フレームワークを紹介します。これは、品質と多様性の両方のバランスをとりながら、LLM Pretrainingのデータ分布を自動的に最適化します。
具体的には、最初にデータの品質を測定し、ドメイン分類を採用してデータポイントを区別し、それによって全体的な多様性を測定する複数の基準を提案します。
Quadmixは、これらの品質と多様性関連のラベルに基づいて、各データポイントのサンプリング確率を決定する統合されたパラメーター化されたデータサンプリング関数を採用します。
Quadmixフレームワークに関連する最適なパラメーターの検索を加速するために、小型モデルでシミュレートされた実験を実施し、RegMixメソッドに触発されたパラメーター検索にLightGBMを使用します。
多様なモデルとデータセットにわたる実験は、Quadmixが複数のベンチマークで7.2%の平均パフォーマンス改善を達成することを示しています。
これらの結果は、品質と多様性のための独立した戦略を上回り、データの質と多様性のバランスをとる必要性と能力を強調しています。

要約(オリジナル)

Quality and diversity are two critical metrics for the training data of large language models (LLMs), positively impacting performance. Existing studies often optimize these metrics separately, typically by first applying quality filtering and then adjusting data proportions. However, these approaches overlook the inherent trade-off between quality and diversity, necessitating their joint consideration. Given a fixed training quota, it is essential to evaluate both the quality of each data point and its complementary effect on the overall dataset. In this paper, we introduce a unified data selection framework called QuaDMix, which automatically optimizes the data distribution for LLM pretraining while balancing both quality and diversity. Specifically, we first propose multiple criteria to measure data quality and employ domain classification to distinguish data points, thereby measuring overall diversity. QuaDMix then employs a unified parameterized data sampling function that determines the sampling probability of each data point based on these quality and diversity related labels. To accelerate the search for the optimal parameters involved in the QuaDMix framework, we conduct simulated experiments on smaller models and use LightGBM for parameters searching, inspired by the RegMix method. Our experiments across diverse models and datasets demonstrate that QuaDMix achieves an average performance improvement of 7.2% across multiple benchmarks. These results outperform the independent strategies for quality and diversity, highlighting the necessity and ability to balance data quality and diversity.

arxiv情報

著者 Fengze Liu,Weidong Zhou,Binbin Liu,Zhimiao Yu,Yifan Zhang,Haobin Lin,Yifeng Yu,Xiaohuan Zhou,Taifeng Wang,Yong Cao
発行日 2025-04-23 08:36:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク