要約
MixUpやCutMixなどの混合サンプル正則化(MSR)は、畳み込みニューラルネットワークを一般化するための強力なデータ拡張戦略です。
以前の経験的分析は、MSRと従来のオフライン知識蒸留(KD)との間の直交するパフォーマンスの向上を示しています。
より具体的には、連続蒸留のトレーニング段階にMSRを関与させることで、学生のネットワークを強化することができます。
それでも、MSRとオンライン知識蒸留の間の相互作用、より強力な蒸留パラダイム、ピア学生のアンサンブルが互いに学び合うことは、未踏のままです。
ギャップを埋めるために、CutMixをオンライン蒸留に組み込む最初の試みを行います。そこでは、経験的に大幅な改善が見られます。
この事実に勇気づけられて、Cut^nMixという名前のオンライン蒸留専用のさらに強力なMSRを提案します。
さらに、新しいオンライン蒸留フレームワークがCut ^ nMixに基づいて設計されており、機能レベルの相互学習と自己アンサンブル教師によって蒸留を強化します。
6つのネットワークアーキテクチャを備えたCIFAR10およびCIFAR100の包括的な評価は、私たちのアプローチが最先端の蒸留方法を一貫して上回っていることを示しています。
要約(オリジナル)
Mixed Sample Regularization (MSR), such as MixUp or CutMix, is a powerful data augmentation strategy to generalize convolutional neural networks. Previous empirical analysis has illustrated an orthogonal performance gain between MSR and the conventional offline Knowledge Distillation (KD). To be more specific, student networks can be enhanced with the involvement of MSR in the training stage of the sequential distillation. Yet, the interplay between MSR and online knowledge distillation, a stronger distillation paradigm, where an ensemble of peer students learn mutually from each other, remains unexplored. To bridge the gap, we make the first attempt at incorporating CutMix into online distillation, where we empirically observe a significant improvement. Encouraged by this fact, we propose an even stronger MSR specifically for online distillation, named as Cut^nMix. Furthermore, a novel online distillation framework is designed upon Cut^nMix, to enhance the distillation with feature level mutual learning and a self-ensemble teacher. Comprehensive evaluations on CIFAR10 and CIFAR100 with six network architectures show that our approach can consistently outperform state-of-the-art distillation methods.
arxiv情報
著者 | Yiqing Shen,Liwu Xu,Yuzhe Yang,Yaqian Li,Yandong Guo |
発行日 | 2022-06-24 16:44:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google