Label-Augmented Dataset Distillation

要約

従来のデータセットの抽出では、主に画像表現に焦点を当てていましたが、ラベルの重要な役割が見落とされることがよくありました。
この研究では、ラベル拡張によるデータセット蒸留を強化する新しいデータセット蒸留フレームワークであるラベル拡張データセット蒸留 (LADD) を紹介します。
LADD は各合成画像をサブサンプリングし、追加の高密度ラベルを生成して豊富なセマンティクスをキャプチャします。
これらの高密度ラベルでは、ストレージ (ImageNet サブセット) を 2.5% 増やすだけでパフォーマンスが大幅に向上し、強力な学習シグナルが得られます。
私たちのラベル生成戦略は、既存のデータセット蒸留方法を補完して、トレーニングの効率とパフォーマンスを大幅に向上させることができます。
実験結果は、LADD が計算オーバーヘッドと精度の点で既存の方法よりも優れていることを示しています。
3 つの高性能データセット蒸留アルゴリズムにより、LADD は平均 14.9% の精度という大幅な向上を達成しました。
さらに、私たちの方法の有効性は、さまざまなデータセット、蒸留ハイパーパラメータ、アルゴリズムにわたって証明されています。
最後に、私たちの方法は、アプリケーション シナリオで重要である、抽出されたデータセットのクロスアーキテクチャの堅牢性を向上させます。

要約(オリジナル)

Traditional dataset distillation primarily focuses on image representation while often overlooking the important role of labels. In this study, we introduce Label-Augmented Dataset Distillation (LADD), a new dataset distillation framework enhancing dataset distillation with label augmentations. LADD sub-samples each synthetic image, generating additional dense labels to capture rich semantics. These dense labels require only a 2.5% increase in storage (ImageNet subsets) with significant performance benefits, providing strong learning signals. Our label generation strategy can complement existing dataset distillation methods for significantly enhancing their training efficiency and performance. Experimental results demonstrate that LADD outperforms existing methods in terms of computational overhead and accuracy. With three high-performance dataset distillation algorithms, LADD achieves remarkable gains by an average of 14.9% in accuracy. Furthermore, the effectiveness of our method is proven across various datasets, distillation hyperparameters, and algorithms. Finally, our method improves the cross-architecture robustness of the distilled dataset, which is important in the application scenario.

arxiv情報

著者 Seoungyoon Kang,Youngsun Lim,Hyunjung Shim
発行日 2024-09-24 16:54:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク