要約
データセット蒸留の最終的な目標は、小さな合成データセットを合成し、この合成セットでトレーニングされたモデルが完全な実際のデータセットでトレーニングされたモデルと同等のパフォーマンスを発揮するようにすることです。
これまでのところ、データセット蒸留のどの方法もこの完全に損失のない目標を達成できていません。これは、以前の方法が合成サンプルの総数が非常に少ない場合にのみ有効であるという事実が部分的に原因です。
このように少数のサンプルに含めることができる情報は限られているため、真に損失データセットの蒸留を実現するには、合成データセットのサイズが大きくなっても有効な蒸留方法を開発する必要があると思われます。
この研究では、そのようなアルゴリズムを提示し、既存の方法がより大規模で高品質の合成セットを生成できない理由を解明します。
現在の最先端の方法は、軌道マッチング、つまり合成データの最適化に依存して、実際のデータと同様の長期トレーニングダイナミクスを引き起こします。
私たちは、一致させるために選択した軌跡のトレーニング段階 (つまり、早いか遅いか) が、抽出されたデータセットの有効性に大きく影響することを経験的に発見しています。
具体的には、必要な情報を配布する例が少ないため、初期のトラジェクトリ (教師ネットワークが簡単なパターンを学習する場所) はカーディナリティの低い合成セットに適しています。
逆に、後期の軌跡 (教師ネットワークがハード パターンを学習する場所) では、必要な複雑なパターンを表すのに十分なサンプルがあるため、より大きな合成セットに対してより良い信号が提供されます。
私たちの調査結果に基づいて、生成されたパターンの難易度を合成データセットのサイズに合わせることを提案します。
そうすることで、軌道マッチングベースの手法をより大規模な合成データセットに拡張することに成功し、初めてロスレスのデータセット蒸留を達成しました。
コードと抽出されたデータセットは https://gzyaftermath.github.io/DATM で入手できます。
要約(オリジナル)
The ultimate goal of Dataset Distillation is to synthesize a small synthetic dataset such that a model trained on this synthetic set will perform equally well as a model trained on the full, real dataset. Until now, no method of Dataset Distillation has reached this completely lossless goal, in part due to the fact that previous methods only remain effective when the total number of synthetic samples is extremely small. Since only so much information can be contained in such a small number of samples, it seems that to achieve truly loss dataset distillation, we must develop a distillation method that remains effective as the size of the synthetic dataset grows. In this work, we present such an algorithm and elucidate why existing methods fail to generate larger, high-quality synthetic sets. Current state-of-the-art methods rely on trajectory-matching, or optimizing the synthetic data to induce similar long-term training dynamics as the real data. We empirically find that the training stage of the trajectories we choose to match (i.e., early or late) greatly affects the effectiveness of the distilled dataset. Specifically, early trajectories (where the teacher network learns easy patterns) work well for a low-cardinality synthetic set since there are fewer examples wherein to distribute the necessary information. Conversely, late trajectories (where the teacher network learns hard patterns) provide better signals for larger synthetic sets since there are now enough samples to represent the necessary complex patterns. Based on our findings, we propose to align the difficulty of the generated patterns with the size of the synthetic dataset. In doing so, we successfully scale trajectory matching-based methods to larger synthetic datasets, achieving lossless dataset distillation for the very first time. Code and distilled datasets are available at https://gzyaftermath.github.io/DATM.
arxiv情報
著者 | Ziyao Guo,Kai Wang,George Cazenavette,Hui Li,Kaipeng Zhang,Yang You |
発行日 | 2024-03-18 11:44:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google