Student-friendly Knowledge Distillation

要約

知識の蒸留では、教師モデルからの知識が複雑すぎて生徒モデルが完全に処理できないことがよくあります。
しかし、現実の優れた教師は、生徒に教える前に常に複雑な内容を単純化します。
この事実に触発されて、私たちは、教師の出力を新しい知識表現に単純化する、生徒に優しい知識蒸留 (SKD) を提案します。これにより、生徒モデルの学習がより簡単かつ効果的になります。
SKD にはソフト化処理と学習簡素化処理が含まれています。
まず、軟化処理では、温度ハイパーパラメータを使用して教師モデルの出力ロジットを軟化します。これにより、出力がある程度単純化され、学習単純化器が処理しやすくなります。
学習単純化器は、アテンション メカニズムを利用して教師モデルの知識をさらに単純化し、蒸留損失を使用して学生モデルと共同でトレーニングされます。これは、単純化のプロセスが学生モデルのトレーニング目標と相関関係があり、
簡素化された新しい教師の知識表現は、特定の生徒モデルにより適しています。
さらに、SKDは蒸留ロスの形状を変化させないため、中間層のロジットや特性に基づいた他の蒸留方法と容易に組み合わせて、その効果を高めることができます。
したがって、SKD は幅広い適用可能性を持っています。
CIFAR-100 および ImageNet データセットの実験結果は、私たちの方法が高いトレーニング効率を維持しながら最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

In knowledge distillation, the knowledge from the teacher model is often too complex for the student model to thoroughly process. However, good teachers in real life always simplify complex material before teaching it to students. Inspired by this fact, we propose student-friendly knowledge distillation (SKD) to simplify teacher output into new knowledge representations, which makes the learning of the student model easier and more effective. SKD contains a softening processing and a learning simplifier. First, the softening processing uses the temperature hyperparameter to soften the output logits of the teacher model, which simplifies the output to some extent and makes it easier for the learning simplifier to process. The learning simplifier utilizes the attention mechanism to further simplify the knowledge of the teacher model and is jointly trained with the student model using the distillation loss, which means that the process of simplification is correlated with the training objective of the student model and ensures that the simplified new teacher knowledge representation is more suitable for the specific student model. Furthermore, since SKD does not change the form of the distillation loss, it can be easily combined with other distillation methods that are based on the logits or features of intermediate layers to enhance its effectiveness. Therefore, SKD has wide applicability. The experimental results on the CIFAR-100 and ImageNet datasets show that our method achieves state-of-the-art performance while maintaining high training efficiency.

arxiv情報

著者 Mengyang Yuan,Bo Lang,Fengnan Quan
発行日 2023-05-18 11:44:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク