Understanding the Role of the Projector in Knowledge Distillation

要約

この論文では、関数マッチングおよび計量学習の問題としての知識蒸留の有効性を再検討します。
その際、3 つの重要な設計上の決定、すなわち、主要な要素としての正規化、ソフト最大関数、投影層を検証します。
私たちは、プロジェクターが過去の例に関する情報を暗黙的にエンコードし、学生に関係勾配を可能にすることを理論的に示します。
次に、表現の正規化がこのプロジェクターのトレーニング ダイナミクスと密接に結びついており、これが生徒のパフォーマンスに大きな影響を与える可能性があることを示します。
最後に、単純なソフト最大値関数を使用して、重大な容量ギャップの問題に対処できることを示します。
さまざまなベンチマーク データセットでの実験結果は、これらの洞察を使用すると、計算効率がはるかに高いにもかかわらず、最先端の知識蒸留手法よりも優れた、または同等のパフォーマンスを実現できることを示しています。
特に、画像分類 (CIFAR100 および ImageNet)、物体検出 (COCO2017)、およびデータ効率の高い変換器のトレーニングなどのより困難な蒸留目標にわたってこれらの結果が得られ、それにより DeiT-Ti で 77.2% のトップ 1 の精度を達成しました。
ImageNet で。
コードとモデルは公開されています。

要約(オリジナル)

In this paper we revisit the efficacy of knowledge distillation as a function matching and metric learning problem. In doing so we verify three important design decisions, namely the normalisation, soft maximum function, and projection layers as key ingredients. We theoretically show that the projector implicitly encodes information on past examples, enabling relational gradients for the student. We then show that the normalisation of representations is tightly coupled with the training dynamics of this projector, which can have a large impact on the students performance. Finally, we show that a simple soft maximum function can be used to address any significant capacity gap problems. Experimental results on various benchmark datasets demonstrate that using these insights can lead to superior or comparable performance to state-of-the-art knowledge distillation techniques, despite being much more computationally efficient. In particular, we obtain these results across image classification (CIFAR100 and ImageNet), object detection (COCO2017), and on more difficult distillation objectives, such as training data efficient transformers, whereby we attain a 77.2% top-1 accuracy with DeiT-Ti on ImageNet. Code and models are publicly available.

arxiv情報

著者 Roy Miles,Krystian Mikolajczyk
発行日 2024-02-01 11:51:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク