GPT-4o as the Gold Standard: A Scalable and General Purpose Approach to Filter Language Model Pretraining Data

要約

大規模な言語モデルには膨大な量の高品質のトレーニングデータが必要ですが、Webスケールのデータセットの効果的なフィルタリングは依然として重要な課題です。
このペーパーでは、GPT-4Oが高品質のトレーニングデータを特定するのに非常に効果的であることを示していますが、その法外なコストにより、Webスケールでは非現実的であることが示されています。
Sieveを提案します。Sieveは、コストの1 \%未満でGPT-4oの精度を一致させる軽量の代替品です。
Sieveは、1つのGPT-4Oフィルタリングコールのコストで最大500のフィルタリング操作を実行できます。
ふるいの鍵は、GPT-4oと軽量のテキスト分類モデルのシームレスな統合であり、アクティブな学習を使用して、GPT-4oへの少数の呼び出しでバックグラウンドでこれらのモデルを微調整します。
トレーニングを受けたら、コストのごく一部でGPT-4oと同様に機能します。
さまざまなフィルタリングプロンプトを通じて、Sieveは、高品質のドメイン固有のデータセットの現在の希少性を考えると、Webスケールコーパスの一般的または専門的なドメインの高品質データを効率的にキュレートできます。
自動および人間の評価メトリックを使用した広範な実験は、ふるいとGPT-4oが5つの非常に特定のフィルタリングプロンプトで同様のパフォーマンスを達成することを示しています。
さらに、Webクロールデータセットで高品質のフィルタリングを実行するとき、Sieveは、LLM事前トレーニングデータを選択するためのDataComp-LMチャレンジで最先端の品質フィルタリング方法をさらに改善できることを示しています。

要約(オリジナル)

Large language models require vast amounts of high-quality training data, but effective filtering of web-scale datasets remains a significant challenge. This paper demonstrates that GPT-4o is remarkably effective at identifying high-quality training data, but its prohibitive cost makes it impractical at web-scale. We propose SIEVE, a lightweight alternative that matches GPT-4o accuracy at less than 1\% of the cost. SIEVE can perform up to 500 filtering operations for the cost of one GPT-4o filtering call. The key to SIEVE is a seamless integration of GPT-4o and lightweight text classification models, using active learning to fine-tune these models in the background with a small number of calls to GPT-4o. Once trained, it performs as well as GPT-4o at a tiny fraction of the cost. Through different filtering prompts, SIEVE can efficiently curate high quality data for general or specialized domains from web-scale corpora — a valuable capability given the current scarcity of high-quality domain-specific datasets. Extensive experiments using automatic and human evaluation metrics show that SIEVE and GPT-4o achieve similar performance on five highly specific filtering prompts. In addition, when performing quality filtering on web crawl datasets, we demonstrate SIEVE can further improve over state-of-the-art quality filtering methods in the DataComp-LM challenge for selecting LLM pretraining data.

arxiv情報

著者 Jifan Zhang,Ziyue Luo,Jia Liu,Ness Shroff,Robert Nowak
発行日 2025-01-31 18:21:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク