A closer look at the training dynamics of knowledge distillation

要約

この論文では、関数マッチングおよびメトリック学習の問題としての知識蒸留の有効性を再検討します。
そうすることで、3 つの重要な設計上の決定事項、すなわち正規化、ソフト最大関数、主要な要素としての投影レイヤーを検証します。
プロジェクターが過去の例に関する情報を暗黙的にエンコードし、学生の関係勾配を可能にすることを理論的に示します。
次に、表現の正規化がこのプロジェクターのトレーニング ダイナミクスと密接に結びついており、学生のパフォーマンスに大きな影響を与える可能性があることを示します。
最後に、単純なソフト最大関数を使用して、重大な容量ギャップの問題に対処できることを示します。
さまざまなベンチマーク データセットでの実験結果は、これらの洞察を使用すると、計算効率がはるかに高いにもかかわらず、最先端の知識抽出技術よりも優れた、または同等のパフォーマンスが得られることを示しています。
特に、これらの結果は、画像分類 (CIFAR100 および ImageNet)、オブジェクト検出 (COCO2017)、およびデータ効率の高いトランスフォーマーのトレーニングなどのより困難な目的で得られ、DeiT-Ti で 77.2% のトップ 1 精度を達成します。
イメージネット上。

要約(オリジナル)

In this paper we revisit the efficacy of knowledge distillation as a function matching and metric learning problem. In doing so we verify three important design decisions, namely the normalisation, soft maximum function, and projection layers as key ingredients. We theoretically show that the projector implicitly encodes information on past examples, enabling relational gradients for the student. We then show that the normalisation of representations is tightly coupled with the training dynamics of this projector, which can have a large impact on the students performance. Finally, we show that a simple soft maximum function can be used to address any significant capacity gap problems. Experimental results on various benchmark datasets demonstrate that using these insights can lead to superior or comparable performance to state-of-the-art knowledge distillation techniques, despite being much more computationally efficient. In particular, we obtain these results across image classification (CIFAR100 and ImageNet), object detection (COCO2017), and on more difficult distillation objectives, such as training data efficient transformers, whereby we attain a 77.2% top-1 accuracy with DeiT-Ti on ImageNet.

arxiv情報

著者 Roy Miles,Krystian Mikolajczyk
発行日 2023-03-20 13:33:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク