要約
言語モデルの効果的な一般化は、トレーニングデータの多様性に大きく依存します。
しかし、既存の多様性メトリックは、モデルの動作から切り離された表面レベルのヒューリスティックに依存して、この目標に依存することがよくあります。
これにより、トレーニングデータの多様性の種類が実際に言語モデルの一般化を促進し、どのように測定および増幅できますか?
データスケールと品質のために慎重に制御される300を超えるトレーニングの実行にまたがる大規模な経験的分析により、データの多様性は、見られない分散ベンチマークでの平均モデルパフォーマンスで測定されるLLM推論の一般化の強力な予測因子になる可能性があることを示しています。
モデル誘導勾配のエントロピーを介して多様性を定量化するメトリックであるG-Vendiを紹介します。
G-Vendiは、グラデーションに小さな既製のプロキシモデルを使用しているにもかかわらず、一貫して代替測定値を上回り、自然言語推論(NLI)と数学の推論タスクの両方で、分散除外(OOD)パフォーマンスを備えた強い相関(Spearmanの$ \ Rho \約0.9 $)を達成します。
この洞察に基づいて、勾配空間で過小評価された領域をターゲットにすることにより、多様な合成データを生成するためのフレームワークであるプリズム合成を提示します。
実験結果は、プリズム合成がモデルのパフォーマンスを一貫して改善することを示しています。これは、分配内のテストだけでなく、目に見えない分散式ベンチマーク全体で合成データを拡大するため、私たちの20倍の大規模なデータジェネレーターに依存する最先端のモデルを大幅に上回っています。
たとえば、32B LLMから蒸留されたモデルであるPrismmath-7Bは、R1-Distill-Qwen-7Bを上回ります。
要約(オリジナル)
Effective generalization in language models depends critically on the diversity of their training data. Yet existing diversity metrics often fall short of this goal, relying on surface-level heuristics that are decoupled from model behavior. This motivates us to ask: What kind of diversity in training data actually drives generalization in language models — and how can we measure and amplify it? Through large-scale empirical analyses spanning over 300 training runs, carefully controlled for data scale and quality, we show that data diversity can be a strong predictor of generalization in LLM reasoning — as measured by average model performance on unseen out-of-distribution benchmarks. We introduce G-Vendi, a metric that quantifies diversity via the entropy of model-induced gradients. Despite using a small off-the-shelf proxy model for gradients, G-Vendi consistently outperforms alternative measures, achieving strong correlation (Spearman’s $\rho \approx 0.9$) with out-of-distribution (OOD) performance on both natural language inference (NLI) and math reasoning tasks. Building on this insight, we present Prismatic Synthesis, a framework for generating diverse synthetic data by targeting underrepresented regions in gradient space. Experimental results show that Prismatic Synthesis consistently improves model performance as we scale synthetic data — not just on in-distribution test but across unseen, out-of-distribution benchmarks — significantly outperforming state-of-the-art models that rely on 20 times larger data generator than ours. For example, PrismMath-7B, our model distilled from a 32B LLM, outperforms R1-Distill-Qwen-7B — the same base model trained on proprietary data generated by 671B R1 — on 6 out of 7 challenging benchmarks.
arxiv情報
著者 | Jaehun Jung,Seungju Han,Ximing Lu,Skyler Hallinan,David Acuna,Shrimai Prabhumoye,Mostafa Patwary,Mohammad Shoeybi,Bryan Catanzaro,Yejin Choi |
発行日 | 2025-05-26 16:05:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google