Improving the Scaling Laws of Synthetic Data with Deliberate Practice

要約

人間の学習における意図的な実践の原則に触発されて、私たちは、動的な合成データ生成を通じてサンプル効率を改善する新しいフレームワークである合成データ生成(DP)の意図的な実践を提案します。
以前の作業では、合成データのスケーリングが本質的に困難であることが示されています。新しいデータを素朴に追加すると、リターンが減少することが示されています。
これに対処するために、剪定はスケーリングを改善し、モデルが最も有益な合成サンプルに焦点を合わせるための重要なメカニズムとして特定されています。
大規模なデータセットを生成してその後剪定するのではなく、DPは有益なサンプルの直接生成を効率的に近似します。
理論的には、挑戦的で有益な例に関するトレーニングがスケーリング法則を改善し、DPがトレーニングサンプルと反復を大幅に少なくしてより良いスケーリングパフォーマンスを達成することを経験的に検証する方法を示します。
ImagENET-100では、DPはサンプルが3.4倍少なくなり、繰り返しが6倍少なくなりますが、Imagenet-1Kでは8倍少ないサンプルが生成されます。

要約(オリジナル)

Inspired by the principle of deliberate practice in human learning, we propose Deliberate Practice for Synthetic Data Generation (DP), a novel framework that improves sample efficiency through dynamic synthetic data generation. Prior work has shown that scaling synthetic data is inherently challenging, as naively adding new data leads to diminishing returns. To address this, pruning has been identified as a key mechanism for improving scaling, enabling models to focus on the most informative synthetic samples. Rather than generating a large dataset and pruning it afterward, DP efficiently approximates the direct generation of informative samples. We theoretically show how training on challenging, informative examples improves scaling laws and empirically validate that DP achieves better scaling performance with significantly fewer training samples and iterations. On ImageNet-100, DP generates 3.4x fewer samples and requires six times fewer iterations, while on ImageNet-1k, it generates 8x fewer samples with a 30 percent reduction in iterations, all while achieving superior performance compared to prior work.

arxiv情報

著者 Reyhane Askari-Hemmat,Mohammad Pezeshki,Elvis Dohmatob,Florian Bordes,Pietro Astolfi,Melissa Hall,Jakob Verbeek,Michal Drozdzal,Adriana Romero-Soriano
発行日 2025-02-21 16:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク