Dataset Distillation in Large Data Era

要約

データセットの蒸留は、大規模なデータセットから小さいながらも代表的なサブセットを生成することを目的としています。これにより、モデルを効率的にトレーニングしながら、元のテスト データの分布を評価して適切なパフォーマンスを達成できます。
これまでの多くの研究は、トレーニング重みの軌道、勾配、特徴/BatchNorm 分布などのマッチングなど、元のデータセットのさまざまな側面と一致させることを目的としていました。この研究では、完全な ImageNet などのさまざまな大規模なデータセットを抽出する方法を示します。
従来の入力解像度 224$\times$224 で -1K/21K を実現し、SRe$^2$L、TESLA、MTT を含むこれまでのすべてのアプローチで最高の精度を達成します。
これを達成するために、データ合成中に精度を得るシンプルかつ効果的な ${\bf C}$urriculum ${\bf D}$ata ${\bf A}$ugmentation ($\texttt{CDA}$) を導入します。
大規模な ImageNet-1K および 21K では、IPC (クラスごとのイメージ) 50 では 63.2%、IPC 20 ではそれぞれ 36.1% でした。
最後に、すべての機能強化を統合することにより、提案されたモデルが ImageNet-1K/21K でトップ 1 の精度で現在の最先端モデルを 4% 以上上回り、初めてギャップを縮小したことを示します。
フルデータ トレーニングに比べて、絶対的な 15% 未満です。
さらに、この研究は、標準的な 224$\times$224 解像度の下で、より大規模な ImageNet-21K でのデータセット蒸留の最初の成功を表しています。
私たちのコードと 20 IPC、2K 回復バジェットの抽出された ImageNet-21K データセットは、https://github.com/VILA-Lab/SRe2L/tree/main/CDA で入手できます。

要約(オリジナル)

Dataset distillation aims to generate a smaller but representative subset from a large dataset, which allows a model to be trained efficiently, meanwhile evaluating on the original testing data distribution to achieve decent performance. Many prior works have aimed to align with diverse aspects of the original datasets, such as matching the training weight trajectories, gradient, feature/BatchNorm distributions, etc. In this work, we show how to distill various large-scale datasets such as full ImageNet-1K/21K under a conventional input resolution of 224$\times$224 to achieve the best accuracy over all previous approaches, including SRe$^2$L, TESLA and MTT. To achieve this, we introduce a simple yet effective ${\bf C}$urriculum ${\bf D}$ata ${\bf A}$ugmentation ($\texttt{CDA}$) during data synthesis that obtains the accuracy on large-scale ImageNet-1K and 21K with 63.2% under IPC (Images Per Class) 50 and 36.1% under IPC 20, respectively. Finally, we show that, by integrating all our enhancements together, the proposed model beats the current state-of-the-art by more than 4% Top-1 accuracy on ImageNet-1K/21K and for the first time, reduces the gap to its full-data training counterpart to less than absolute 15%. Moreover, this work represents the inaugural success in dataset distillation on larger-scale ImageNet-21K under the standard 224$\times$224 resolution. Our code and distilled ImageNet-21K dataset of 20 IPC, 2K recovery budget are available at https://github.com/VILA-Lab/SRe2L/tree/main/CDA.

arxiv情報

著者 Zeyuan Yin,Zhiqiang Shen
発行日 2023-11-30 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク