要約
モデルトレーニングにおける高品質のデータの需要が高まるにつれて、研究者と開発者は、LLMを調整および訓練するための合成データをますます生成しています。
ただし、現在のデータ生成方法は、数万の例を含むシードセットに依存して、命令チューニングモデルを促しています。
この信頼は、高品質の例のキュレーションが高価または困難な場合に特に問題があります。
このペーパーでは、いくつかの例から高品質のデータセットを生成する、新しい少数のショット合成データ生成の設定を探ります。
いくつかの種子例のみを使用して作業する場合、現在の合成データ方法で使用されている命令チューニングモデルは、下流タスクに不十分な多様性を生成することを示しています。
対照的に、トレーニング後のベースモデルは、合成データ生成のために大部分が未開発のものであり、能力が低いにもかかわらず、大幅に大きい出力の多様性を提供することを示しています。
この洞察を活用して、ベースモデルの多様性と命令チューニングモデルの品質保証を組み合わせた新しい2段階の方法であるベースリファイン(BARE)を提案します。
Bareは少ないショットの合成データ生成に優れています:3つのシード例のみを使用して、下流のタスクパフォーマンスを大幅に改善する多様で高品質のデータセットを生成します。
1,000個のベア生成サンプルを備えた微調整されたLlama 3.1 8bが、LiveCodebenchタスクの同様のサイズのモデルに匹敵するパフォーマンスを実現することを示します。
さらに、ベアで生成されたデータにより、命令モデルのみによって生成されたデータよりも微調整されたllama 3.2 1bの101%の改善が可能になり、RAGデータ生成の最先端のいかだ方法よりも微調整されたllama 3.1 8bの18.4%の改善が可能になります。
要約(オリジナル)
As the demand for high-quality data in model training grows, researchers and developers are increasingly generating synthetic data to tune and train LLMs. However, current data generation methods rely on seed sets containing tens of thousands of examples to prompt instruction-tuned models. This reliance can be especially problematic when the curation of high-quality examples is expensive or difficult. In this paper we explore the novel few-shot synthetic data generation setting — generating a high-quality dataset from a few examples. We show that when working with only a few seed examples, instruction-tuned models used in current synthetic data methods produce insufficient diversity for downstream tasks. In contrast, we show that base models without post-training, largely untapped for synthetic data generation, offer substantially greater output diversity, albeit with lower instruction following abilities. Leveraging this insight, we propose Base-Refine (BARE), a novel two-stage method that combines the diversity of base models with the quality assurance of instruction-tuned models. BARE excels in few-shot synthetic data generation: using only 3 seed examples it generates diverse, high-quality datasets that significantly improve downstream task performance. We show that fine-tuning Llama 3.1 8B with 1,000 BARE-generated samples achieves performance comparable to state-of-the-art similarly sized models on LiveCodeBench tasks. Furthermore, data generated with BARE enables a 101% improvement for a fine-tuned Llama 3.2 1B on GSM8K over data generated by only instruction-models, and an 18.4% improvement for a fine-tuned Llama 3.1 8B over the state-of-the-art RAFT method for RAG data generation.
arxiv情報
著者 | Alan Zhu,Parth Asawa,Jared Quincy Davis,Lingjiao Chen,Boris Hanin,Ion Stoica,Joseph E. Gonzalez,Matei Zaharia |
発行日 | 2025-05-21 17:50:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google