A closer look at the training dynamics of knowledge distillation

要約

本稿では、関数マッチングと計量学習問題としての知識蒸留の有効性を再検討する。その際、3つの重要な設計上の決定、すなわち、正規化、ソフト最大関数、投影レイヤーを重要な要素として検証する。理論的には、プロジェクタが過去の例に関する情報を暗黙的に符号化し、生徒の関係勾配を可能にすることを示す。次に、表現の正規化がこのプロジェクタの訓練ダイナミクスと緊密に結合しており、生徒の成績に大きな影響を与える可能性があることを示す。最後に、単純なソフトマキシマム関数を用いることで、容量ギャップの問題に対処できることを示す。様々なベンチマークデータセットを用いた実験結果から、これらの知見を用いることで、計算効率がはるかに高いにもかかわらず、最先端の知識蒸留技術よりも優れた、あるいは同等の性能を得られることが実証された。特に、画像分類(CIFAR100とImageNet)、物体検出(COCO2017)、そしてデータ効率の良い変換器の訓練など、より困難な知識抽出の目的においてこれらの結果を得ており、ImageNetにおいてDeiT-Tiを用いて77.2%のトップ1精度を達成している。

要約(オリジナル)

In this paper we revisit the efficacy of knowledge distillation as a function matching and metric learning problem. In doing so we verify three important design decisions, namely the normalisation, soft maximum function, and projection layers as key ingredients. We theoretically show that the projector implicitly encodes information on past examples, enabling relational gradients for the student. We then show that the normalisation of representations is tightly coupled with the training dynamics of this projector, which can have a large impact on the students performance. Finally, we show that a simple soft maximum function can be used to address any significant capacity gap problems. Experimental results on various benchmark datasets demonstrate that using these insights can lead to superior or comparable performance to state-of-the-art knowledge distillation techniques, despite being much more computationally efficient. In particular, we obtain these results across image classification (CIFAR100 and ImageNet), object detection (COCO2017), and on more difficult distillation objectives, such as training data efficient transformers, whereby we attain a 77.2% top-1 accuracy with DeiT-Ti on ImageNet.

arxiv情報

著者 Roy Miles,Krystian Mikolajczyk
発行日 2023-08-04 15:18:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク