DiM: Distilling Dataset into Generative Model

要約

データセットの蒸留は、大規模なデータセットから小規模で有益なデータセットを合成することにより、ネットワークのトレーニング コストを削減します。
最近のデータセット抽出アルゴリズムの成功にもかかわらず、3 つの欠点が依然としてその広範な適用を制限しています: i)。
大規模なアーキテクチャでは、合成イメージのパフォーマンスが低下します。
ii)。
蒸留比が変化した場合、再最適化する必要があります。
iii)。
限られた多様性は、蒸留比が大きい場合の性能を制限します。
この論文では、\textbf{D}大きな列車セット\textbf{i}nの情報をDiMと名付けられた生成的な\textbf{M}モデルに蒸留する新しい蒸留スキームを提案します。
具体的には、DiM は生成モデルを使用してターゲット データセットの情報を格納することを学習します。
蒸留段階では、実際の画像と生成された画像の間のモデル プールによって予測されるロジットの差を最小限に抑えます。
展開段階で、生成モデルはランダム ノイズからさまざまなトレーニング サンプルをオンザフライで合成します。
シンプルでありながら効果的な設計により、トレーニング済みの DiM は、追加コストなしで、さまざまな蒸留比や大規模なアーキテクチャに直接適用できます。
提案された DiM を 4 つのデータセットで検証し、それらすべてで最先端の結果を達成します。
私たちの知る限りでは、CIFAR-10 のクラスごとに 10 個の画像で、ResNet-18 で 75.1\%、ConvNet-3 で 72.6\% など、単純なアーキテクチャよりも複雑なアーキテクチャで高い精度を達成した最初の企業です。
さらに、SVHN データセットでクラスあたりの画像が 1 と 10 の場合、DiM は 10\% $\sim$ 22\% で以前の方法よりも優れています。

要約(オリジナル)

Dataset distillation reduces the network training cost by synthesizing small and informative datasets from large-scale ones. Despite the success of the recent dataset distillation algorithms, three drawbacks still limit their wider application: i). the synthetic images perform poorly on large architectures; ii). they need to be re-optimized when the distillation ratio changes; iii). the limited diversity restricts the performance when the distillation ratio is large. In this paper, we propose a novel distillation scheme to \textbf{D}istill information of large train sets \textbf{i}nto generative \textbf{M}odels, named DiM. Specifically, DiM learns to use a generative model to store the information of the target dataset. During the distillation phase, we minimize the differences in logits predicted by a models pool between real and generated images. At the deployment stage, the generative model synthesizes various training samples from random noises on the fly. Due to the simple yet effective designs, the trained DiM can be directly applied to different distillation ratios and large architectures without extra cost. We validate the proposed DiM across 4 datasets and achieve state-of-the-art results on all of them. To the best of our knowledge, we are the first to achieve higher accuracy on complex architectures than simple ones, such as 75.1\% with ResNet-18 and 72.6\% with ConvNet-3 on ten images per class of CIFAR-10. Besides, DiM outperforms previous methods with 10\% $\sim$ 22\% when images per class are 1 and 10 on the SVHN dataset.

arxiv情報

著者 Kai Wang,Jianyang Gu,Daquan Zhou,Zheng Zhu,Wei Jiang,Yang You
発行日 2023-03-08 16:48:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク