要約
合成データは大規模な言語モデルをトレーニングするために注目を集めていますが、低品質のデータはパフォーマンスに悪影響を及ぼす可能性があります (例: Shumailov et al. (2023); Seddik et al. (2024) を参照)。
潜在的な解決策は、スコア関数 (人間または機械のフィードバック) に基づいて高品質のデータのみを保持するデータ プルーニングです。
前の研究 Feng et al。
(2024) サンプルサイズが増加するにつれて、合成データでトレーニングされたモデルを分析しました。
ランダム行列理論を使用してこれを拡張し、高次元設定で実際のデータとプルーニングされた合成データの混合でトレーニングされたバイナリ分類器のパフォーマンスを導き出します。
私たちの調査結果では、生成モデルと検証戦略の品質に焦点を当て、合成データがパフォーマンスを向上させる可能性がある条件を特定しました。
また、無限のサンプル制限における以前の鋭い動作とは対照的に、合成ラベル ノイズにおける滑らかな位相遷移も示します。
おもちゃのモデルと大規模な言語モデルを使った実験により、理論的な結果が検証されます。
要約(オリジナル)
Synthetic data has gained attention for training large language models, but poor-quality data can harm performance (see, e.g., Shumailov et al. (2023); Seddik et al. (2024)). A potential solution is data pruning, which retains only high-quality data based on a score function (human or machine feedback). Previous work Feng et al. (2024) analyzed models trained on synthetic data as sample size increases. We extend this by using random matrix theory to derive the performance of a binary classifier trained on a mix of real and pruned synthetic data in a high dimensional setting. Our findings identify conditions where synthetic data could improve performance, focusing on the quality of the generative model and verification strategy. We also show a smooth phase transition in synthetic label noise, contrasting with prior sharp behavior in infinite sample limits. Experiments with toy models and large language models validate our theoretical results.
arxiv情報
著者 | Aymane El Firdoussi,Mohamed El Amine Seddik,Soufiane Hayou,Reda Alami,Ahmed Alzubaidi,Hakim Hacid |
発行日 | 2024-10-11 16:09:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google