要約
データセットの蒸留または圧縮は、ニューラル ネットワーク上の蒸留されたセットと元のセットのトレーニング パフォーマンスが同等になるように、大規模なトレーニング データセットをはるかに小さい合成データセットに凝縮することを目的としています。
トレーニング サンプルの数は大幅に減らすことができますが、現在の最先端の方法では、満足のいくパフォーマンスを達成するために膨大なソフト ラベルに大きく依存しています。
その結果、特に大規模なデータセットの場合、必要なストレージは元のデータセットと同等になる可能性があります。
この問題を解決するために、これらの重いラベルを保存する代わりに、効果的な画像からラベルへのプロジェクターを目的とした、HeL10 と呼ばれる新しいラベル軽量化フレームワークを提案します。このフレームワークを使用すると、合成画像から合成ラベルをオンラインで直接生成できます。
具体的には、このようなプロジェクターを構築するために、CLIP などのオープンソース基盤モデルの事前知識を活用し、事前トレーニングされた分布とターゲット分布の間のギャップを軽減する LoRA のような微調整戦略を導入します。
-ラベルの生成は、低ランクの行列のグループに抽出できます。
さらに、元のラベル生成器と抽出されたラベル生成器の間の潜在的なエラーをさらに軽減する効果的な画像最適化方法が提案されています。
広範な実験により、ソフト ラベルの完全なセットに必要な元のストレージのわずか約 0.003% で、大規模なデータセットに対する現在の最先端のデータセット蒸留手法と同等のパフォーマンスを達成できることが実証されました。
私たちのコードが利用可能になります。
要約(オリジナル)
Dataset distillation or condensation aims to condense a large-scale training dataset into a much smaller synthetic one such that the training performance of distilled and original sets on neural networks are similar. Although the number of training samples can be reduced substantially, current state-of-the-art methods heavily rely on enormous soft labels to achieve satisfactory performance. As a result, the required storage can be comparable even to original datasets, especially for large-scale ones. To solve this problem, instead of storing these heavy labels, we propose a novel label-lightening framework termed HeLlO aiming at effective image-to-label projectors, with which synthetic labels can be directly generated online from synthetic images. Specifically, to construct such projectors, we leverage prior knowledge in open-source foundation models, e.g., CLIP, and introduce a LoRA-like fine-tuning strategy to mitigate the gap between pre-trained and target distributions, so that original models for soft-label generation can be distilled into a group of low-rank matrices. Moreover, an effective image optimization method is proposed to further mitigate the potential error between the original and distilled label generators. Extensive experiments demonstrate that with only about 0.003% of the original storage required for a complete set of soft labels, we achieve comparable performance to current state-of-the-art dataset distillation methods on large-scale datasets. Our code will be available.
arxiv情報
著者 | Ruonan Yu,Songhua Liu,Zigeng Chen,Jingwen Ye,Xinchao Wang |
発行日 | 2024-08-15 15:08:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google