Self-supervised Dataset Distillation: A Good Compression Is All You Need

要約

データセットの蒸留は、元のデータの情報の本質を最大限に保持しながら、大規模な元のデータセットから新しいコンパクトなデータセットに情報を圧縮することを目的としています。
これまでの研究は主に、重みの軌跡、特徴、勾配、BatchNorm など、元のデータと抽出されたデータの間の中間統計を調整することに集中していました。この研究では、圧縮段階でのモデルの情報性という新しいレンズを通してこのタスクに取り組むことを検討します。
元のデータセットの事前トレーニングについて。
以前の最先端の SRe$^2$L では、モデルのサイズが大きくなるにつれて、教師あり事前学習モデルがデータ合成中に学習した情報を回復することがますます困難になることが観察されています。
モデルは平坦であり、情報が少なくなります。
さらに、自己教師モデルからの BN 統計の分散が大きくなると、より大きな損失信号が勾配によって回復されたデータを更新できるようになり、合成中により多くの情報が得られることに気づきました。
この観察に基づいて、データセット蒸留のためのシンプルかつ効果的な自己教師あり圧縮フレームワークである SC-DD を紹介します。SC-DD は、従来の教師あり学習スキームと比較して多様な情報の圧縮と回復を促進し、強化された機能を備えた大規模な事前トレーニング済みモデルの可能性をさらに引き出します。
私たちが提案するアプローチの優位性を実証するために、CIFAR-100、Tiny-ImageNet、および ImageNet-1K データセットに対して広範な実験が行われています。
提案された SC-DD は、SRe$^2$L、MTT、TESLA、DC、CAFE などのより大きなモデルを使用する場合、これまでのすべての最先端の教師ありデータセット蒸留手法を、同じ条件下で大幅に上回ります。
回復とトレーニング後の予算。
コードは https://github.com/VILA-Lab/SRe2L/tree/main/SCDD/ で入手できます。

要約(オリジナル)

Dataset distillation aims to compress information from a large-scale original dataset to a new compact dataset while striving to preserve the utmost degree of the original data informational essence. Previous studies have predominantly concentrated on aligning the intermediate statistics between the original and distilled data, such as weight trajectory, features, gradient, BatchNorm, etc. In this work, we consider addressing this task through the new lens of model informativeness in the compression stage on the original dataset pretraining. We observe that with the prior state-of-the-art SRe$^2$L, as model sizes increase, it becomes increasingly challenging for supervised pretrained models to recover learned information during data synthesis, as the channel-wise mean and variance inside the model are flatting and less informative. We further notice that larger variances in BN statistics from self-supervised models enable larger loss signals to update the recovered data by gradients, enjoying more informativeness during synthesis. Building on this observation, we introduce SC-DD, a simple yet effective Self-supervised Compression framework for Dataset Distillation that facilitates diverse information compression and recovery compared to traditional supervised learning schemes, further reaps the potential of large pretrained models with enhanced capabilities. Extensive experiments are conducted on CIFAR-100, Tiny-ImageNet and ImageNet-1K datasets to demonstrate the superiority of our proposed approach. The proposed SC-DD outperforms all previous state-of-the-art supervised dataset distillation methods when employing larger models, such as SRe$^2$L, MTT, TESLA, DC, CAFE, etc., by large margins under the same recovery and post-training budgets. Code is available at https://github.com/VILA-Lab/SRe2L/tree/main/SCDD/.

arxiv情報

著者 Muxin Zhou,Zeyuan Yin,Shitong Shao,Zhiqiang Shen
発行日 2024-04-11 17:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク