要約
ニューラル ネットワークのトレーニングに使用されるデータセットのサイズが増大するにつれて、データ プルーニングは魅力的な研究分野になっています。
ただし、最新のデータ プルーニング アルゴリズムのほとんどは、完全なデータでトレーニングされたモデルと比較して、特に高いプルーニング レジームでは精度を維持する能力に限界があります。
このペーパーでは、枝刈りされたサブセットでのトレーニング時に知識蒸留 (KD) を組み込みながら、データ枝刈りのアプリケーションを検討します。
つまり、グラウンドトゥルースのラベルのみに依存するのではなく、完全なデータで事前トレーニングされた教師ネットワークからのソフト予測も使用します。
KD をトレーニングに統合することにより、データセット、枝刈り方法、およびすべての枝刈り部分にわたって大幅な改善が見られます。
まず、プルーニングされたデータのトレーニングを改善するために自己蒸留を採用する理論的な動機を確立します。
次に、KD を使用すると、単純なランダム プルーニングは、すべてのプルーニング レジームにわたって高度なプルーニング手法と同等かそれより優れているという、説得力のある非常に実用的な観察を経験的に行います。
たとえば、ImageNet では、データのわずか 50% のランダムなサブセットでトレーニングしたにもかかわらず、優れた精度を達成しました。
さらに、枝刈り係数と最適な知識蒸留重みとの間に重要な関係があることを示します。
これは、一般的なプルーニング アルゴリズムによって保持されるノイズの多いラベルや低品質の画像を含むサンプルの影響を軽減するのに役立ちます。
最後に、興味深い観察結果が得られます。低い枝刈り分数を使用する場合、教師の規模が大きいと精度の低下につながりますが、驚くべきことに、生徒よりも能力の小さい教師を雇用すると結果が向上する可能性があります。
私たちのコードが利用可能になります。
要約(オリジナル)
With the increasing size of datasets used for training neural networks, data pruning becomes an attractive field of research. However, most current data pruning algorithms are limited in their ability to preserve accuracy compared to models trained on the full data, especially in high pruning regimes. In this paper we explore the application of data pruning while incorporating knowledge distillation (KD) when training on a pruned subset. That is, rather than relying solely on ground-truth labels, we also use the soft predictions from a teacher network pre-trained on the complete data. By integrating KD into training, we demonstrate significant improvement across datasets, pruning methods, and on all pruning fractions. We first establish a theoretical motivation for employing self-distillation to improve training on pruned data. Then, we empirically make a compelling and highly practical observation: using KD, simple random pruning is comparable or superior to sophisticated pruning methods across all pruning regimes. On ImageNet for example, we achieve superior accuracy despite training on a random subset of only 50% of the data. Additionally, we demonstrate a crucial connection between the pruning factor and the optimal knowledge distillation weight. This helps mitigate the impact of samples with noisy labels and low-quality images retained by typical pruning algorithms. Finally, we make an intriguing observation: when using lower pruning fractions, larger teachers lead to accuracy degradation, while surprisingly, employing teachers with a smaller capacity than the student’s may improve results. Our code will be made available.
arxiv情報
著者 | Emanuel Ben-Baruch,Adam Botach,Igor Kviatkovsky,Manoj Aggarwal,Gérard Medioni |
発行日 | 2024-03-12 17:44:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google