要約
高品質の監視された微調整(SFT)データは、前処理された大手言語モデル(LLM)から強力な機能を引き出すために重要です。
通常、指示は他のLLMからサンプリングされた複数の応答とペアになります。これは、微調整されるターゲットモデルの分布から外れていることがよくあります。
これは、大規模に、リターンの減少につながり、モデルのパフォーマンスと堅牢性を損なうことさえあります。
ターゲットモデルのユニークな特性を説明する新しいSFTフレームワークである** Grape **を提案します。
各命令について、さまざまなLLMSから応答を収集し、ターゲットモデルによって測定された確率が最も高いものを選択し、ターゲットモデルの前提条件の分布と最も密接に整合していることを示します。
その後、標準のSFTトレーニングで進みます。
最初に、複数のモデルからultrainteractの各質問のさまざまなソリューションをサンプリングし、グレープ選択でllama3.1-8b、mistral-7b、qwen2.5-7bなどの一般的に使用されるLMSの微調整の各質問のさまざまなソリューションをサンプリングします。
データ。
Grapeは、最大13.8%の絶対的なゲインで最も強力なモデルからの蒸留、ベンチマーク全体で平均され、最大パフォーマンス改善が17.3%である3倍のデータでトレーニングを含む、強力なベースラインを大幅に上回ることを大幅に上回ります。
Grapeの強力なパフォーマンスは、現実的な設定に一般化されます。
TULU3およびOLMO-2に使用されるトレーニング後のデータを実験します。
Grapeは、4.5倍のデータでトレーニングされた強力なベースラインを6.1%上回り、最先端のデータ選択アプローチを平均パフォーマンスで3%上回ります。
驚くべきことに、データの1/3とエポックの半分を使用して、GrapeによりLlama3.1-8BがTulu3-sftの性能を3.5%上回ることができます。
要約(オリジナル)
High-quality supervised fine-tuning (SFT) data are crucial for eliciting strong capabilities from pretrained large language models (LLMs). Typically, instructions are paired with multiple responses sampled from other LLMs, which are often out of the distribution of the target model to be fine-tuned. This, at scale, can lead to diminishing returns and even hurt the models’ performance and robustness. We propose **GRAPE**, a novel SFT framework that accounts for the unique characteristics of the target model. For each instruction, it gathers responses from various LLMs and selects the one with the highest probability measured by the target model, indicating that it aligns most closely with the target model’s pretrained distribution; it then proceeds with standard SFT training. We first evaluate GRAPE with a controlled experiment, where we sample various solutions for each question in UltraInteract from multiple models and fine-tune commonly used LMs like LLaMA3.1-8B, Mistral-7B, and Qwen2.5-7B on GRAPE-selected data. GRAPE significantly outperforms strong baselines, including distilling from the strongest model with an absolute gain of up to 13.8%, averaged across benchmarks, and training on 3x more data with a maximum performance improvement of 17.3%. GRAPE’s strong performance generalizes to realistic settings. We experiment with the post-training data used for Tulu3 and Olmo-2. GRAPE outperforms strong baselines trained on 4.5 times more data by 6.1% and a state-of-the-art data selection approach by 3% on average performance. Remarkably, using 1/3 of the data and half the number of epochs, GRAPE enables LLaMA3.1-8B to surpass the performance of Tulu3-SFT by 3.5%.
arxiv情報
著者 | Dylan Zhang,Qirun Dai,Hao Peng |
発行日 | 2025-02-06 16:31:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google