Mixed Sample Augmentation for Online Distillation

要約

MixUp や CutMix などの混合サンプル正則化 (MSR) は、畳み込みニューラル ネットワークを一般化するための強力なデータ拡張戦略です。
以前の実証分析では、MSR と従来のオフライン知識蒸留 (KD) の間の直交するパフォーマンスの向上が示されています。
より具体的には、学生ネットワークは、MSR が逐次蒸留のトレーニング段階に関与することで強化できます。
しかし、MSR と、仲間の学生の集合体が互いに学び合うオンライン知識の蒸留との相互作用は、未踏のままです。
ギャップを埋めるために、CutMix をオンライン蒸留に組み込む最初の試みを行い、経験的に大幅な改善を観察しました。
この事実に勇気づけられて、オンライン蒸留専用のさらに強力な MSR を提案します。これは Cut\textsuperscript{n}Mix と名付けられています。
さらに、新しいオンライン蒸留フレームワークが Cut\textsuperscript{n}Mix に基づいて設計されており、機能レベルの相互学習と自己アンサンブル教師で蒸留を強化します。
6 つのネットワーク アーキテクチャを使用した CIFAR10 および CIFAR100 の包括的な評価は、当社のアプローチが最先端の蒸留方法よりも一貫して優れていることを示しています。

要約(オリジナル)

Mixed Sample Regularization (MSR), such as MixUp or CutMix, is a powerful data augmentation strategy to generalize convolutional neural networks. Previous empirical analysis has illustrated an orthogonal performance gain between MSR and conventional offline Knowledge Distillation (KD). To be more specific, student networks can be enhanced with the involvement of MSR in the training stage of sequential distillation. Yet, the interplay between MSR and online knowledge distillation, where an ensemble of peer students learn mutually from each other, remains unexplored. To bridge the gap, we make the first attempt at incorporating CutMix into online distillation, where we empirically observe a significant improvement. Encouraged by this fact, we propose an even stronger MSR specifically for online distillation, named as Cut\textsuperscript{n}Mix. Furthermore, a novel online distillation framework is designed upon Cut\textsuperscript{n}Mix, to enhance the distillation with feature level mutual learning and a self-ensemble teacher. Comprehensive evaluations on CIFAR10 and CIFAR100 with six network architectures show that our approach can consistently outperform state-of-the-art distillation methods.

arxiv情報

著者 Yiqing Shen,Liwu Xu,Yuzhe Yang,Yaqian Li,Yandong Guo
発行日 2023-03-02 18:45:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク