要約
知識蒸留 (KD) は、モデルを圧縮して高速化するための効果的なツールとして認識されています。
しかし、現在の KD アプローチは一般に、精度の低下や耐え難いほど長い蒸留プロセスの問題を抱えています。
この論文では、まずブロック間最適化エンタングルメント (IBOE) と呼ばれる現象について新たな洞察を提供することでこの問題に取り組みます。IBOE は、従来のエンドツーエンド KD アプローチをノイズの多い勾配で不安定にするものです。
次に、IBOE を打ち破り、より安定した最適化を実現する新しい KD フレームワークである StableKD を提案します。
StableKD は、分解と再構成という 2 つの操作で区別されます。前者は教師と生徒のネットワークのペアをいくつかのブロックに分割して個別に蒸留し、後者はそれらを徐々にマージして戻し、エンドツーエンドの蒸留に向けて進化します。
私たちは、さまざまな教師と生徒のペアを使用して、CIFAR100、Imagewoof、および ImageNet データセットに対して広範な実験を実施しています。
他の KD アプローチと比較して、シンプルかつ効果的な StableKD はモデルの精度を 1% ~ 18% 大幅に向上させ、収束を最大 10 倍高速化し、わずか 40% のトレーニング データでそれらを上回るパフォーマンスを発揮します。
要約(オリジナル)
Knowledge distillation (KD) has been recognized as an effective tool to compress and accelerate models. However, current KD approaches generally suffer from an accuracy drop and/or an excruciatingly long distillation process. In this paper, we tackle the issue by first providing a new insight into a phenomenon that we call the Inter-Block Optimization Entanglement (IBOE), which makes the conventional end-to-end KD approaches unstable with noisy gradients. We then propose StableKD, a novel KD framework that breaks the IBOE and achieves more stable optimization. StableKD distinguishes itself through two operations: Decomposition and Recomposition, where the former divides a pair of teacher and student networks into several blocks for separate distillation, and the latter progressively merges them back, evolving towards end-to-end distillation. We conduct extensive experiments on CIFAR100, Imagewoof, and ImageNet datasets with various teacher-student pairs. Compared to other KD approaches, our simple yet effective StableKD greatly boosts the model accuracy by 1% ~ 18%, speeds up the convergence up to 10 times, and outperforms them with only 40% of the training data.
arxiv情報
著者 | Shiu-hong Kao,Jierun Chen,S. H. Gary Chan |
発行日 | 2023-12-20 17:46:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google