要約
データセットの圧縮は、多数のトレーニング サンプルを含む大規模なデータセットを小さなセットに圧縮することを目的としています。
以前の方法では通常、データセットがピクセル形式に圧縮されます。
ただし、最適化速度が遅く、最適化するパラメーターが多数になるという欠点があります。
画像の解像度とクラスが増加すると、それに応じて学習可能なパラメーターの数も増加するため、圧縮手法を多様なクラスを持つ大規模なデータセットにスケールアップすることができなくなります。
さらに、凝縮されたサンプル間の関係が無視されているため、凝縮されたサンプルの特徴分布は多様性がないことがよくあります。
これらの問題を解決するために、データセットを別の形式である生成モデルに圧縮することを提案します。
このような新しい形式では、クラス数や画像解像度が増加しても生成モデルのサイズが比較的安定しているため、大規模なデータセットの圧縮が可能になります。
さらに、クラス内損失とクラス間損失を提案して、凝縮サンプルの関係をモデル化します。
クラス内損失は、各サンプルを同じクラスの他のサンプルから遠ざけることで、各クラスのより多様なサンプルを作成することを目的としています。
一方、クラス間損失は、異なるクラスの中心間のギャップを広げることにより、サンプルの識別可能性を高めます。
最先端の方法と当社のアブレーション研究との広範な比較により、当社の方法とその個々のコンポーネントの有効性が確認されています。
私たちの知る限りでは、私たちは ImageNet-1k での圧縮の実行に初めて成功しました。
要約(オリジナル)
Dataset condensation aims to condense a large dataset with a lot of training samples into a small set. Previous methods usually condense the dataset into the pixels format. However, it suffers from slow optimization speed and large number of parameters to be optimized. When increasing image resolutions and classes, the number of learnable parameters grows accordingly, prohibiting condensation methods from scaling up to large datasets with diverse classes. Moreover, the relations among condensed samples have been neglected and hence the feature distribution of condensed samples is often not diverse. To solve these problems, we propose to condense the dataset into another format, a generative model. Such a novel format allows for the condensation of large datasets because the size of the generative model remains relatively stable as the number of classes or image resolution increases. Furthermore, an intra-class and an inter-class loss are proposed to model the relation of condensed samples. Intra-class loss aims to create more diverse samples for each class by pushing each sample away from the others of the same class. Meanwhile, inter-class loss increases the discriminability of samples by widening the gap between the centers of different classes. Extensive comparisons with state-of-the-art methods and our ablation studies confirm the effectiveness of our method and its individual component. To our best knowledge, we are the first to successfully conduct condensation on ImageNet-1k.
arxiv情報
著者 | David Junhao Zhang,Heng Wang,Chuhui Xue,Rui Yan,Wenqing Zhang,Song Bai,Mike Zheng Shou |
発行日 | 2023-09-14 13:17:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google