SIEVE: General Purpose Data Filtering System Matching GPT-4o Accuracy at 1% the Cost

要約

特化した大規模言語モデルを作成するには、学習と微調整のために膨大な量のクリーンで特別な目的のデータが必要です。既存の大規模でドメイン固有のデータセットはほんの一握りであるため、ほとんどのアプリケーションでは新しいデータセットの作成が必要となる。このため、ウェブスケールデータのアプリケーション固有のフィルタリングを新たに開発する必要がある。GPT-4oのような高性能汎用LLMによるフィルタリングは非常に効果的であるが、ウェブスケールでは非常に高価である。本論文では、GPT-4oの精度に匹敵する軽量の代替手段であるSIEVEを提案する。SIEVEは、GPT-4oのフィルタリング呼び出し1回分のコストで、最大500回のフィルタリング処理を実行できる。SIEVEの鍵は、GPT-4oと軽量T5モデルのシームレスな統合であり、GPT-4oへの少ない呼び出し回数でバックグラウンドでT5を微調整するために能動学習を使用しています。一度学習すれば、GPT-4oと同程度の性能をわずかなコストで実現します。我々は、OpenWebTextデータセット上で、高品質でドメイン固有のコンテンツをターゲットとした、高度にカスタマイズされた5つのフィルタータスクを使用して、SIEVEを実験的に検証した。その結果、既存の手法よりも大幅に低いコスト(1%)で、言語モデル学習用の大規模で高品質なデータセットをキュレートする上で、本手法の有効性と効率性が実証された。SIEVEをさらに検証するため、実験ではSIEVEとGPT-4oが同程度の精度を達成し、人間の評価者はGPT-4oのフィルタリング結果よりもSIEVEのフィルタリング結果を好むことが示された。

要約(オリジナル)

Creating specialized large language models requires vast amounts of clean, special purpose data for training and fine-tuning. With only a handful of existing large-scale, domain-specific datasets, creation of new datasets is required in most applications. This requires the development of new application-specific filtering of web-scale data. Filtering with a high-performance, general-purpose LLM such as GPT-4o can be highly effective, but this is extremely expensive at web-scale. This paper proposes SIEVE, a lightweight alternative that matches GPT-4o accuracy at a fraction of the cost. SIEVE can perform up to 500 filtering operations for the cost of one GPT-4o filtering call. The key to SIEVE is a seamless integration of GPT-4o and lightweight T5 models, using active learning to fine-tune T5 in the background with a small number of calls to GPT-4o. Once trained, it performs as well as GPT-4o at a tiny fraction of the cost. We experimentally validate SIEVE on the OpenWebText dataset, using five highly customized filter tasks targeting high quality and domain-specific content. Our results demonstrate the effectiveness and efficiency of our method in curating large, high-quality datasets for language model training at a substantially lower cost (1%) than existing techniques. To further validate SIEVE, experiments show that SIEVE and GPT-4o achieve similar accuracy, with human evaluators preferring SIEVE’s filtering results to those of GPT-4o.

arxiv情報

著者 Jifan Zhang,Robert Nowak
発行日 2024-10-03 17:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク