Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation

要約

データセット蒸留 (DD) は、元のデータセットと同等のパフォーマンスを発揮できる小さなデータセットを合成することを目的としています。
数多くの DD 手法が成功しているにもかかわらず、この領域の理論的探求は未解決のままです。
この論文では、サンプルの難易度の観点からさまざまなマッチングベースの DD 手法を理解するための最初の一歩を踏み出します。
まず、勾配ノルムによって測定されるサンプルの難易度を経験的に調べることから始め、さまざまなマッチングベースの手法が特定の難易度の傾向にほぼ対応していることを観察します。
次に、データ プルーニングのニューラル スケーリング則を DD に拡張して、これらのマッチング ベースの手法を理論的に説明します。
私たちの調査結果は、元のデータセットから簡単なサンプルの合成を優先することで、特に低い IPC (クラスごとのイメージ) 設定で、蒸留されたデータセットの品質を向上できることを示唆しています。
経験的観察と理論的分析に基づいて、より高いデータセット品質を達成するために主に簡単なサンプルを生成するように設計されたサンプル難易度補正 (SDC) アプローチを導入します。
当社の SDC は、最小限のコード調整でプラグインとして既存のメソッドにシームレスに統合できます。
実験結果は、SDC を追加すると、7 つの蒸留方法と 6 つのデータセットにわたって高品質の蒸留データセットが生成されることを示しています。

要約(オリジナル)

Dataset Distillation (DD) aims to synthesize a small dataset capable of performing comparably to the original dataset. Despite the success of numerous DD methods, theoretical exploration of this area remains unaddressed. In this paper, we take an initial step towards understanding various matching-based DD methods from the perspective of sample difficulty. We begin by empirically examining sample difficulty, measured by gradient norm, and observe that different matching-based methods roughly correspond to specific difficulty tendencies. We then extend the neural scaling laws of data pruning to DD to theoretically explain these matching-based methods. Our findings suggest that prioritizing the synthesis of easier samples from the original dataset can enhance the quality of distilled datasets, especially in low IPC (image-per-class) settings. Based on our empirical observations and theoretical analysis, we introduce the Sample Difficulty Correction (SDC) approach, designed to predominantly generate easier samples to achieve higher dataset quality. Our SDC can be seamlessly integrated into existing methods as a plugin with minimal code adjustments. Experimental results demonstrate that adding SDC generates higher-quality distilled datasets across 7 distillation methods and 6 datasets.

arxiv情報

著者 Shaobo Wang,Yantai Yang,Qilong Wang,Kaixin Li,Linfeng Zhang,Junchi Yan
発行日 2024-08-22 15:20:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク