On the Diversity and Realism of Distilled Dataset: An Efficient Dataset Distillation Paradigm

要約

現代の機械学習では、大規模なデータセット上で大規模なニューラル ネットワークをトレーニングする必要があるため、高い計算需要という課題に直面しています。
データセットの蒸留は、最近新たに登場した戦略であり、効率的なトレーニングのために現実世界のデータセットを圧縮することを目的としています。
しかし、この分野の研究は現在、大規模で高解像度のデータセットに苦労しており、その実用性と実現可能性を妨げています。
この目的を達成するために、既存のデータセット抽出方法を再検討し、大規模な現実世界のアプリケーションに必要な 3 つの特性、つまり現実性、多様性、効率を特定します。
解決策として、我々は、蒸留されたデータの多様性と現実性の両方を可能にする、新しい計算効率がありながらも効果的なデータ蒸留パラダイムである RDED を提案します。
さまざまなニューラル アーキテクチャとデータセットに関する広範な実証結果は、RDED の進歩を実証しています。完全な ImageNet-1K を 7 分以内にクラスあたり 10 枚の画像で構成される小さなデータセットに抽出することができ、ResNet-18 でトップ 1 の 42% という注目に値する精度を達成できます。
単一の RTX-4090 GPU (SOTA は 21% しか達成できませんが、6 時間を必要とします)。

要約(オリジナル)

Contemporary machine learning requires training large neural networks on massive datasets and thus faces the challenges of high computational demands. Dataset distillation, as a recent emerging strategy, aims to compress real-world datasets for efficient training. However, this line of research currently struggle with large-scale and high-resolution datasets, hindering its practicality and feasibility. To this end, we re-examine the existing dataset distillation methods and identify three properties required for large-scale real-world applications, namely, realism, diversity, and efficiency. As a remedy, we propose RDED, a novel computationally-efficient yet effective data distillation paradigm, to enable both diversity and realism of the distilled data. Extensive empirical results over various neural architectures and datasets demonstrate the advancement of RDED: we can distill the full ImageNet-1K to a small dataset comprising 10 images per class within 7 minutes, achieving a notable 42% top-1 accuracy with ResNet-18 on a single RTX-4090 GPU (while the SOTA only achieves 21% but requires 6 hours).

arxiv情報

著者 Peng Sun,Bei Shi,Daiwei Yu,Tao Lin
発行日 2023-12-06 14:40:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク